フランスのAIスタートアップ、Mistral AIが画像とテキストの両方を処理できる「Pixtral 12B」という先進的なモデルをリリースしました。
Pixtral 12Bは120億のパラメーターを持ち、追加で4億パラメータの視覚アダプターを搭載していることで、テキスト入力とともに画像も「見る」ことができます。従来のテキスト処理のみのモデル「Nemo 12B」を基に作られており、URLやbase64エンコーディング経由で画像をアップロードすることが可能です。
このモデルは、画像へのキャプション生成や物体の数え上げ、画像に関する一般的な質問に答えるなどのタスクを処理できます。
この革新的モデルでMistral AIの評価額は約6億ユーロに達しており、1年という短期間での顕著な成長が認められています。
新しい投資ラウンドでターゲットとされた6億ユーロを成功裏に調達し、企業の価値も大きく上昇しています。
モデルはオープンソースで、柔軟なApache 2.0ライセンスのもと無料で公開されており、開発者によるダウンロードや改良、さらなるトレーニングが奨励されているのです。
出典 : Mistral AI showcases its first multimodal LLM to the world https://www.techzine.eu/news/applications/124352/mistral-ai-showcases-its-first-multimodal-llm-to-the-world/