AIの新時代へ!多様なデータを理解する多モーダルモデル

2024.11.20

WorkWonders

大規模言語モデル(LLM)がAI研究と開発に革命をもたらしていますが、テキストしか扱えないという大きな限界もあります。画像や音声など、非テキストデータを理解するタスクは数多く存在します。そこで、複数のデータタイプを処理できる多モーダルモデル(MM)が注目されています。

LLMを基盤として、外部モジュールや適応器(アダプター)、さらに新しいトークナイザーを用いることで、多モーダル機能を高める研究が進行中です。この取り組みにより、言語のみならず画像や音声にも対応するAIの実現に道を開いています。

例えば、LLaMA 3.2 Visionは画像ベースのタスクに使用できるモデルで、その利用例も公開されています。多モーダルモデルは、AIの理解力を大きく向上させると同時に、使い勝手の幅も広げる可能性を秘めています。これからのAI技術を牽引する注目の進化系モデル、その全容に迫ります。

出典 : Multimodal Models — LLMs that can see and hear https://towardsdatascience.com/multimodal-models-llms-that-can-see-and-hear-5c6737c981d3

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。