Googleは、大規模言語モデル(LLMs)の精度向上のために、DataGemmaを発表しました。これは、公開されている情報やデータを統合したData Commonsプラットフォームと結びつける新機能です。
2023年、LLMsは急速に進化を遂げましたが、出力内容の安定性には問題がありました。
特に「ハルシネーション」と呼ばれる、AIが事実に基づかない断定的な不正確情報を出力する問題が指摘されており、リアルタイムデータや統計などの数値情報に関するクエリでこの問題は顕著に現れます。
DataGemmaは、Retrieval-Interleaved Generation(RIG)、Retrieval-Augmented Generation(RAG)などの技術を駆使して、LLMsが事実に基づいた回答を提供することを目指しています。これらの技術により、特に数値や事実データを扱う際の精度が大幅に向上しています。
GoogleはDataGemmaを通じて、研究者や開発者を対象に、より幅広くData Commonsプラットフォームの利用を進めており、他のLLMsも事実に基づいた出力を行うことへの期待が高まっています。品質の高いLLMsの出力は、これらのモデルの広範な適応にとって鍵です。現在も継続的なテストが行われており、これらの技術は徐々に他のモデルへと取り入れられていく予定です。
出典 : Google hallucination-proofing LLM: DataGemma to boost accuracy through Data Commons https://www.digitimes.com/news/a20240918PD213/google-gemma-llm-data-rag.html