NTTは言語モデルを用いて文書の視覚情報まで理解する技術を開発しました。
これは、テキストだけでなくアイコンや図表などの視覚要素を含む文書を読み取る画期的な技術です。
従来、AIは画像内のテキストを理解するにとどまっていましたが、NTTの研究により、文書画像から直接情報を把握する能力が向上しました。
この技術は、「The 38th Annual AAAI Conference on Artificial Intelligence」で発表されると共に、「自然言語処理学会第30回年次大会」で優秀賞を受賞。
さらには、東北大学との共同研究により進化し、Web検索や作業自動化に貢献すると期待されています。
高い指示遂行能力により、LLMだけでなく画像認識も可能なAIの新たな地平が開かれています。
出典 : https://news.livedoor.com/article/detail/26233612/