画像から情報を読み解く！NTTの革新的な視覚読解技術

生成AIニュース

2024.04.28

WorkWonders

NTTが新たに視覚読解技術の成果を発表しました。
これは、文書のグラフ画像などを含む視覚情報を理解できる技術で、従来の大規模言語モデル（LLM）にはない機能です。
テキストだけでなく、図表も読み取り、文書の全体を把握できるため、複雑な文書もAIが解釈可能になります。
「tsuzumi」というLLMにもこの技術は既に取り入れられており、科学会議での発表や学会賞を受賞するなど、その有効性が認められています。
画像を含む多種多様な文書を理解する能力は、AI技術の新たな地平を開くことでしょう。

出典 : https://it.impress.co.jp/articles/-/26220

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】