大規模言語モデル(LLM)は情報アクセス方法を変革していますが、事実の正確さにまだ課題があります。複雑な入力に対して誤った情報を生成する「ハルシネーション」が起こりうるため、信頼性が損なわれ、実世界での利用に限界が出ています。
そこで、今回「FACTS Grounding」という新しいベンチマークを導入しました。これは、与えられた入力に基づいて事実に忠実で詳細な回答を生成できるLLMの能力を評価するものです。Kaggle上のリーダーボードを通じて業界の進捗を追跡し、主要なLLMをテストし、初期のスコアリングを行いました。
FACTS Groundingは公開セットと非公開セットに分かれており、860の公開例と859の非公開の例が含まれます。LLMの多様性を担保するため、ファイナンスや医療、法律など様々な分野の文書が使用されています。
さまざまなAIモデルが、文書の情報と整合する完全な回答を生成することの難しさを評価し、人間評価者とも一致する妥当なジャッジを提供するシステムを確立しています。
FACTS Groundingは時代の進化とともに成長し、AIシステムの改良へ貢献することを目指しています。AIコミュニティには、FACTS Groundingを用いてモデルを評価するか、評価のためにモデルを提出してほしいと呼びかけています。
出典 : FACTS Grounding: A new benchmark for evaluating the factuality of large language models https://deepmind.google/discover/blog/facts-grounding-a-new-benchmark-for-evaluating-the-factuality-of-large-language-models/