NTTが新たに視覚読解技術の成果を発表しました。
これは、文書のグラフ画像などを含む視覚情報を理解できる技術で、従来の大規模言語モデル(LLM)にはない機能です。
テキストだけでなく、図表も読み取り、文書の全体を把握できるため、複雑な文書もAIが解釈可能になります。
「tsuzumi」というLLMにもこの技術は既に取り入れられており、科学会議での発表や学会賞を受賞するなど、その有効性が認められています。
画像を含む多種多様な文書を理解する能力は、AI技術の新たな地平を開くことでしょう。
出典 : https://it.impress.co.jp/articles/-/26220