アップルのコンピュータ科学者およびエンジニアのチームが、画像とデータの両方を解釈できるとされるLLM(Large Language Model、大規模言語モデル)を開発しました。この技術は、複雑なデータをより正確かつ文脈を把握して解釈できるため、注目されています。
アップルは他社のLLMを単に取り入れるだけではなく、画像とテキストデータ両方を扱える次世代LLMの開発に注力していることを研究チームは明確にしています。
MM1と呼ばれるこの多モードモデルは、画像付きのキャプション生成や視覚的な質問応答、クエリ学習の能力向上に貢献しています。研究者たちは、MM1モデルが、画像内の物体数を数えたり、物体を識別したり、日常的な物に関する常識を使って情報を提供することができるとしています。
さらに、このモデルには、議論中に学んだことを活用するインコンテキスト学習という能力が備わっているため、毎回ゼロから学び直す必要がありません。
アップルの新しいAIの進化に期待が高まっています。
出典 : https://techxplore.com/news/2024-03-apple-mm1-multimodal-llm-capable.html