この月に発表された新しい論文の中で、Appleの研究者たちは、テキストと視覚情報の両方を使用して大規模な言語モデルを訓練する新しい手法を開発したと明らかにしました。Appleの研究者によると、これは最先端の成果を得る方法を示しています。
論文「MM1: Multimodal LLM Pre-trainingの方法、分析、及び洞察」では、複数の建築要素やデータ選択の重要性について研究しています。画像キャプションや交互の画像テキスト、テキストのみのデータをうまく混合することの重要性が指摘されており、数回の試行で複数のベンチマークにおいて最先端の成果を上げることができることを示しています。
このMM1モデルは、コンテキスト内学習やマルチイメージ推論など、注目すべき特性を持つ最先端のモデル群として説明されています。研究者たちは、これらのモデルが幅広いベンチマークで競争力のあるパフォーマンスを実現し、さらに少数ショットプロンプトやマルチイメージ推論を可能にすると結論づけています。
出典 : https://9to5mac.com/2024/03/18/apple-ai-llm-technology-models/