JPMorganが開発した新しい言語モデル「DocLLM」は、複雑なレイアウトを持つ文書の解析に特化しています。従来の大規模言語モデルに比べ軽量で、富裕な文書の理解に焦点を当てています。他のモデルが高価な画像エンコーダを使用する一方で、DocLLMは文書上のテキストの配置を理解するために、テキストボックスの位置や大きさ(バウンディングボックス情報)を利用します。これにより、さまざまなレイアウトを持つ文書を効率的に取り扱うことができます。
DocLLMには1B(10億)と7B(70億)の2つのサイズがあり、評価テストではGPT4やLlama2といった他の大規模モデルを凌駕する性能を示しています。特に、0ショットの指示に基づいた文書解析で優れた成績を収めています。ビジネス文書のように、テキストと空間的な構造からなる複雑な意味を持つ文書の解析に革新をもたらす見込みです。
出典 : https://medium.com/@basics.machinelearning/discover-docllm-the-new-llm-from-jpmorgan-for-working-with-complex-documents-5f54ea287d52