NTTが新たな大規模言語モデル「ツヅミ」を開発しました。この技術の特徴は、文書内のテキストだけでなく、
アイコンやグラフなどの視覚情報も総合して理解することができる点です。NTTと東北大学の共同研究チームは、文書の画像を分析することで、
画像内の文字や位置、画像の特徴を定量的に捉え、大規模言語モデルが解釈しやすい情報に変換する技術を開発しました。
さらに、文書画像を用いた質問応答や情報抽出、文書分類など複数のタスクに対応するデータセットを構築し、モデルが視覚と言語の情報を統合して理解できるようになりました。
テキストのみの大規模言語モデルGPT-4や、視覚を理解できる「LLaVA」といったモデルと比較しても高い性能を示し、注目されています。
この研究は、カナダ・バンクーバーで開催された国際会議において発表されました。
出典 : https://ascii.jp/elem/000/004/194/4194269/