AIが視覚と言語を融合!NTTが新たな読解技術を開発

2024.04.28

WorkWonders

 NTTが進める大規模言語モデル(LLM)を用いた画期的な技術が光を見ました。
これまでのAIはテキスト情報のみを解釈する限界がありましたが、新技術「視覚読解技術」により、人間のように文書の視覚情報を含めた理解が可能になったのです。
たとえば、請求書からの情報抽出など、特定のタスクに限らず、任意のタスクに対応できる汎用性があります。
また、教師あり学習をしなくても、LLMが文書を視覚と言語を組み合わせて理解し、追加学習なしでタスクを遂行可能です。
これは、オフィス作業の効率化や、日常生活での読書補助としても利用が期待されています。

 この技術成果は、国際会議AAAI2024や国内会議NLP2024で発表され、優秀賞も受賞。
文書をマルチモーダルな視点から捉えることにより、視覚と言語の統合モデルLLaVAなどと比較しても高い性能を達成しました。
未来のAIは、人々の作業を助けるだけでなく、より人間に近い形で情報理解を実現していくでしょう。

出典 : https://www.okinawatimes.co.jp/articles/-/1340914

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください