AI技術の普及に伴い、ユーザーがAIを信用するためには、その評価方法が重要なポイントとなります。例えば、小規模から大規模なAIアーキテクチャーでよく使われるRAG(Retrieval Augmented Generation)を評価する際に注目されるのが、その精度や文脈への適合性です。
RAGは、ユーザーが提供する特定のデータに基づいてAIが回答を出す際に、その不正確さを改善するために使用されます。企業は、顧客データを用いずにモデルをカスタマイズすることで、コストを抑えつつも必要な精度を確保しようとします。
ガリレオ社の「Evaluation Intelligence」プラットフォームは、AIシステムの評価において「文脈遵守」と「完成度」という2つのメトリクスを用いています。文脈遵守はAIがユーザーのクエリに対して与えた文脈をどのように利用するかを示し、完成度はAIがレトリーバルしたデータのどの部分を利用したかを評価します。
これにより、AIのアウトプットが信頼性を持ち、最適化されるため、ユーザーにとってはより理解しやすくなります。最終的にAIを信頼するかどうかは、長い議論に値しますが、現段階ではより良いAIの結果を目指すことが重要です。
出典 : Want better LLM results? Then it’s time for AI evaluation tools – learning from Galileo’s RAG and agent metrics https://diginomica.com/want-better-llm-results-then-its-time-ai-evaluation-tools-learning-galileos-rag-and-agentic-metrics