大規模言語モデル(LLMs)は情報との対話方法を革新しましたが、応答を検証可能な事実に基づかせることは依然として大きな課題です。リアルな知識は多様なソースに散りばめられており、それぞれ異なるデータ形式、スキーマ、APIを持っています。これがアクセスと統合を困難にしています。
事実に基づかない発言は、誤った情報を生み出す原因となることがあります。信頼できるAIシステムを構築することは、私たちの研究の核心であり、LLMsの誤った情報(ハルシネーション)に対処することは、この目標を達成する上で重要です。
今回、LLMsが実世界の統計データに基づいて正確な応答を提供するための新プロジェクト「DataGemma」を発表します。Data Commonsの膨大な統計データを使用し、「言語」が「API」として機能する方式を採用しています。これにより、複雑なデータベースクエリを書かずに、直感的に質問して答えを得ることができるようになります。
たとえば「カリフォルニア州の仕事に貢献する産業は?」などの問いに、LLMsを通じて、簡単に答えを得ることができるのです。これにより、様々なスキーマやAPIを扱う際の困難を克服します。DataGemmaは、情報の信頼性向上に不可欠な歩みを示す、前進的なプロジェクトであると言えるでしょう。
出典 : Grounding AI in reality with a little help from Data Commons http://research.google/blog/grounding-ai-in-reality-with-a-little-help-from-data-commons/