大規模言語モデル(LLM)は、私たちが入力する文脈に応じた文章を生成します。これまでのモデルでは、コンテキストの長さが限られており、例えばGPT-3では2048トークンという制限がありました。しかし、実用例を通じ、
より長いコンテキストを扱う必要性が明らかになってきたのです。プログラムの全体像を把握し指摘するケースや、豊富な社内文書を理解して応答する場合などでは、限られたトークンでは難易度が高くなります。
さらに、言語だけでなく画像や動画も理解するマルチモーダルモデルでは、より多くのトークンが必要です。これに応じて、LLMのコンテキスト長は増加傾向にあり、Gemini 1.5では100万トークンに達しました。これからのLLMがどんな課題を乗り越え、どう進化していくのか、その背景に迫ります。
出典 : https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00007/00075/