NTTが新たに開発したアダプタ技術を備えた大規模言語モデル「tsuzumi」は、文章の理解力に加えて図表や写真などの視覚データも読み解くことが可能です。これは、従来の言語モデルが苦手としていた図を含む文書を理解するため
の進歩であり、レシートやWebページ、スライドなど多様な形式のドキュメントに対応します。新技術は文書に含まれる視覚情報をLLMが解釈しやすい形に変えることで、推論能力を駆使して理解を行うのです。
オフィスでの文書作業の効率化、カスタマーサポートの向上、AIと人とのスムーズなペアワークを実現し、今後の業務支援に大きな影響を与えることが期待されます。
出典 : https://www.watch.impress.co.jp/docs/news/1583605.html