スマートフォン上でマルチモーダル対応の言語モデル(LLM)が実現し、数年で技術は飛躍的に進歩しました。今やスマホで高性能な画像認識を備えたGemma-3nといったLLMが動作する時代になりました。
プライバシーを保護しながら、通信がない環境でも利用可能であり、日本語を含む多言語での応答が可能です。この進化は、省メモリで高速動作する新しい技術の登場に支えられています。
しかし、不正確な情報(ハルシネーション)を提供することもあり、その精度向上が今後の課題です。それでも、画像認識だけでなく、音声や動画にも対応が期待される現在、これらの技術のさらなる進化に目が離せません。
すでにスマホローカルでLLMが流暢な日本語を話すレベルに到達しており、次の一手が楽しみです。
出典 : 【西川和久の不定期コラム】 スマホローカルで動作し、画像も認識するLLM!Google「Gemma 3n」を試してみた https://pc.watch.impress.co.jp/docs/column/nishikawa/2022929.html