NVIDIAが開発したNVLM 1.0は、画像と言語のタスクに対応する多機能な大規模言語モデルです。
このモデルは、従来の言語処理タスクにおいても改善が見られ、視覚と言語の混在するデータを効果的に処理しながら、言語能力を損なうことのないそのアーキテクチャが注目されています。
特に、数学的問題解決やコーディングタスクにおいて高い精度が確認されており、オープンソースとしてHugging Faceにモデルの重みが公開され、訓練コードも間もなくリリース予定です。
NVLM 1.0が解釈する多様なシナリオとしては、画像に隠されたユーモアの理解や、手書きの擬似コードを基にした数学的推理など、複雑なタスクも含まれます。
AIコミュニティからは好評の声が多く、今後の可能性に期待が寄せられています。
出典 : NVIDIA Unveils NVLM 1.0: Open-Source Multimodal LLM with Improved Text and Vision Capabilities https://www.infoq.com/news/2024/10/nvlm-nvidia-open-source/