日本電信電話株式会社(NTT)は、文書のテキスト情報だけでなく、視覚情報を含めて理解できる画期的な視覚読解技術を開発したと発表しました。この技術は、大規模言語モデル「tsuzumi」の改善にも役立っています。
従来のAI技術ではテキストの意味しか読み取れないという問題を解決し、文書中のアイコンや図表などの視覚要素も理解することが可能になりました。これにより、視覚読解タスクを対象とした新たなデータセットを構築することができるようになります。
さらに、画像中の文字や特徴を解析し、あらゆるタスクを追加学習なしで遂行できる能力も実証されました。この進歩は、AIの応用範囲を広げ、Web検索や質問応答など、さまざまなサービスの向上が期待されます。
出典 : https://cloud.watch.impress.co.jp/docs/news/1583906.html