先進的な画像エンコーダーと人工知能モデルの関係を探求した研究が発表されました。この研究では、異なるエンコーダー(CLIPとAIM)、画像解像度、訓練データセットを使った実験を通して、どの要因がモデルの性能向上に寄与するかを調べています。
特に画像の解像度が高ければ、ゼロショットおよび数発のプロンプトにおいても優れた性能を示すことがわかりました。また、文と画像を効果的に連携させるVLコネクタの評価でも、解像度とトークン数が重要であることが判明しています。
さらに、訓練データには、人が生成したキャプション、合成キャプション、交互に入れたイメージ・テキストデータ、テキストのみのデータといった様々な種類が使用されました。その結果、データを交互に使用することが少数プロンプトとテキストのパフォーマンスを向上させ、キャプション付きデータはゼロショットパフォーマンスに有効であることが示されています。
最終的に、多モーダル変換器へとつなげることで、将来的にはより多くのアプリケーションが開発される可能性があると期待されています。音や匂い、さらには触覚など、他の感覚を入力としても考えられるでしょう。これらの研究結果から、画像認識技術の未来はさらに進化していくことでしょう。
出典 : https://towardsdatascience.com/multimodal-large-language-models-apples-mm1-c1e94d87a161