日本電信電話株式会社(NTT)が、文書内の図表やレイアウトを含めて理解する視覚読解技術を開発しました。
この技術は、従来のテキスト読解では難しかった視覚情報の理解を可能にして、文書をより人間に近い形で処理できるようになります。
新しいアダプタ技術を使い、文書画像を大規模言語モデル(LLM)が理解できる形に変換。
これにより、文書の検索や読書補助など、多岐にわたるタスクに対応可能です。
また、国際会議や学会で高く評価され、今後の応用に期待が集まっています。
出典 : https://internet.watch.impress.co.jp/docs/news/1583875.html