Microsoftが新たな小規模言語モデル「Phi-4-multimodal」と「Phi-4-mini」を発表しました。これらのモデルは、PCなどリソースに制限のあるデバイスでも快適に動作し、反応も速いという特長があります。
「Phi-4-multimodal」は、音声、視覚、言語を一つの空間で処理できるマルチモーダル対応モデル。モバイルデバイスやエッジシステムに最適で、複雑なパイプライン不要で高度なAI機能を提供します。
たった5.6Bパラメーターという軽量ながら、「GPT-4o」と同等の音声要約性能を有しており、文書理解や光学文字認識などマルチモーダル機能で類似モデルを凌ぐ結果を見せました。新しいモデル「Phi-4」ファミリーにより、AIの新たな領域が開かれます。
出典 : Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表/初のマルチモーダル(音声・視覚・言語)対応モデルと、テキスト特化の極小モデル https://forest.watch.impress.co.jp/docs/news/1666053.html