大規模言語モデル(LLM)は、時に正しくない、意味不明な出力を生成することが問題とされており、「幻覚」と呼ばれています。テクニオン、グーグルリサーチ、アップルの研究者たちは、LLMがこれまで考えられていたよりも深い真実を理解していることを明らかにしました。
研究では、幻覚を広い意味で定義し、事実の不正確さや偏見、常識的な推論の失敗、その他の実世界のエラーを含んでいます。
以前の研究は、LLMがどのようにエラーをユーザーに提示するか、外部の振る舞いに焦点を当てて分析していましたが、エラーがモデル内でどのようにエンコードされ、処理されているかの洞察は限定的でした。
しかし、今回の研究では、単に最終出力だけでなく、「正確な答えトークン」に焦点を当てて分析が行われています。これにより、真実性情報が解答トークンに集中していることがわかりました。
さらに、研究者たちは誤りを予測するための分類器モデルを訓練し、その結果、LLMの内部活性化を基に生成出力の真実性に関連する特徴を予測できることが分かりました。
エラーの予測だけでなく、どのようなタイプのエラーが発生しやすいかの情報も含まれていることが判明し、これは焦点の絞られた改善策の開発に役立ちます。
出典 : Study finds LLMs can identify their own mistakes https://venturebeat.com/ai/study-finds-llms-can-identify-their-own-mistakes/