視覚世界を理解するテキストベースのAI:MIT研究チームの新発見

2024.06.20

WorkWonders

MITの研究チームが、画像を一度も見たことがない大規模言語モデル(LLM)が視覚的理解を持つことを明らかにしました。
インターネット上で説明された形や色の概念を学習することにより、これらのモデルは複雑なシーンやオブジェクトを生成するイメージレンダリングコードを書くことができます。自己修正を繰り返すことで、より洗練された画像を創り出すことも可能です。

研究チームは、「ビジュアル適性データセット」を使い、LLMがどれほどの視覚知識を持つか検証しました。合成されたテキスト生成データに基づいて、実際の写真の内容を識別するコンピュータビジョンシステムを訓練し、良好な結果を得ました。

将来的には、LLMの隠された視覚知識を他のAIツールと組み合わせて、さらに優れたビジョンモデルを訓練することに期待が寄せられています。

出典 : https://news.mit.edu/2024/understanding-visual-knowledge-language-models-0617

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください