Google DeepMindとGoogle Researchが開発した、AIの長文回答生成能力を試す新たなベンチマーク「FACTS Grounding」(FACTS)が発表されました。
このベンチマークは、AIが出力した情報が検証可能な情報源と紐づいているかどうかを測る「グラウンディング」という概念に基づいています。
1719件の公開・非公開データセットを使い、AIがどの程度事実に基づいた詳細な回答を生成できるかを確認します。
さまざまな分野の文書を使用し、複数のAIモデルのスコアを平均化することで、特定のモデルに偏らない評価を行う仕組みです。
Google DeepMindは、今後もFACTSの発展を進め、AI開発のコミュニティでの活用を期待しています。
出典 : Google DeepMindがLLMの「事実性」と「根拠」を評価するベンチマークツールを公開 https://www.itmedia.co.jp/enterprise/articles/2412/26/news102.html