Apple、画像とテキストを理解するAI「MM1」を発表

2024.03.19

WorkWonders

Appleが独自開発したマルチモーダルLLM(MLLM)「MM1」が注目されています。このシステムは画像にキャプションを追加したり、画像とテキストを使った質問に回答したりする能力を持ち、
自然言語推論を行うことができるように作られています。MM1は画像とテキストを組み合わせたデータやテキストのみのデータを用いてトレーニングされ、
専門家の技術や教師あり学習によりパラメータを大規模に拡張しています。

その結果、MM1は小さなサイズであっても、他の大きなMLLMと競合する成果を上げています。また、視覚タスクに関しては、米OpenAIや米Googleのシステムに匹敵するとされています。
Appleは、研究成果がAIコミュニティに貢献することを望み、CEOのティム・クック氏もAI分野の進捗を年内に共有すると言っています。
詳細なアーキテクチャは公開されていませんが、Appleの研究者たちがこれまでLLMに関する複数の研究を発表しており、今後が期待されています。

出典 : https://www.itmedia.co.jp/news/articles/2403/18/news095.html

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください