LangChainは、大規模言語モデル(LLMs)向けに、評価プロセスを簡素化する二つの新パッケージ「OpenEvals」と「AgentEvals」を開始しました。これらは開発者がLLMを活用したアプリケーションやエージェントの評価を効率化することを目的とした堅牢なフレームワークと一連の評価ツールを提供します。
評価はLLMの出力品質を決定する上で欠かせない要素であり、評価データと評価指標が重要です。OpenEvalsは、定型的な出力が求められる場面では、モデルの出力が決められた形式に合致するかを検証する機構を提供する一方で、エージェント評価としては、エージェントがタスクを遂行する過程の一連のアクションを評価します。
さらに、LangChainは評価を時間を追って追跡するために「LangSmith」を推奨しており、ElasticやKlarnaのような著名企業もこのツールを使用してGenAIアプリケーションの評価に活用しています。開発者は、GitHubを通じて自身の評価ツールの貢献や改善提案が可能であり、LangChainは今後も特定のユースケース向けにより専門的な評価ツールを提供していく予定です。
出典 : OpenEvals Simplifies LLM Evaluation Process for Developers https://blockchain.news/news/openevals-simplifies-llm-evaluation-process