革新的AIモデル「Grok-1.5V」、画像認識に挑む!

2024.04.28

WorkWonders

米AI企業xAIが新たに発表した、イーロン・マスク氏の独自LLM「Grok-1.5V」は、画像を認識するマルチモーダルモデルです。
これまでのモデルを大幅にアップデートし、手書きのフローチャートやスクリーンショット、写真の解析が可能になりました。
既にホワイトボード上のフローチャートをPythonコードに変換するデモを成功させるなど、その実力を示しています。

このモデルは、OpenAIのGPT-4VやGoogleのGemini Pro 1.5など、他のAIモデルと比べても空間理解能力に優れているとの評価を受けています。
また、ユーモアを解する能力も持つなど、xAIは既存の枠を超えるAGI(人工汎用知能)構築を目指しています。
今後数カ月にわたり、画像だけでなく音声や動画など様々なモダリティに対応した生成機能の拡充も計画しているとのことです。

出典 : https://www.itmedia.co.jp/news/articles/2404/14/news047.html

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください