大言語モデル(LLM)の誤った回答やハルシネーションと呼ばれる問題を解決するため、Google DeepMindの研究者たちは「FACTS Grounding」という新しい基準を考案しました。これは、文書の情報を正確に反映した回答ができるかどうかを評価するためのものです。
Kaggleのデータサイエンスコミュニティには、この基準で評価されたモデルのランキングが公開されており、Gemini 2.0 Flashが83.6%という高いスコアでトップに立っています。
ランキングには、GoogleのGeminiシリーズやAnthropicのClade、OpenAIのGPT-4など、さまざまなモデルが掲載されており、詳細な回答や有用な情報提供能力が評価されています。
研究者たちは、LLMの予測精度を一層向上させるための持続的な努力を強調していますが、技術進歩の速さを考えると、この基準も始まりに過ぎないと述べています。
出典 : Google DeepMind researchers introduce new benchmark to improve LLM factuality, reduce hallucinations https://venturebeat.com/ai/google-deepmind-researchers-introduce-new-benchmark-to-improve-llm-factuality-reduce-hallucinations/