大規模言語モデル(LLM)がAI研究と開発に革命をもたらしていますが、テキストしか扱えないという大きな限界もあります。画像や音声など、非テキストデータを理解するタスクは数多く存在します。そこで、複数のデータタイプを処理できる多モーダルモデル(MM)が注目されています。
LLMを基盤として、外部モジュールや適応器(アダプター)、さらに新しいトークナイザーを用いることで、多モーダル機能を高める研究が進行中です。この取り組みにより、言語のみならず画像や音声にも対応するAIの実現に道を開いています。
例えば、LLaMA 3.2 Visionは画像ベースのタスクに使用できるモデルで、その利用例も公開されています。多モーダルモデルは、AIの理解力を大きく向上させると同時に、使い勝手の幅も広げる可能性を秘めています。これからのAI技術を牽引する注目の進化系モデル、その全容に迫ります。
出典 : Multimodal Models — LLMs that can see and hear https://towardsdatascience.com/multimodal-models-llms-that-can-see-and-hear-5c6737c981d3