大言語モデル(LLM)の進化が、AI応用ソフトウェアの開発を容易にしています。しかし、企業が独自のニーズに合わせた性能の追跡を怠ると、不安定な成果を招く可能性があります。
従来の公共ベンチマークだけに依存せず、企業は独自のカスタム評価を行う必要があります。カスタム評価では、リアルなユーザーデータを基にテストして、LLMの出力が目的に即しているかを確かめます。
さらに、進行中のデータ変化に対応するためには、リアルな顧客データに基づいてモデルの性能を継続的に評価する「オンラインスコアリング」システムが推奨されています。これにより、AIが動かすソフトウェア開発において、データ駆動で厳密な評価を行うことの重要性が強調されています。
出典 : How custom evals get consistent results from LLM applications https://venturebeat.com/ai/how-custom-evals-get-consistent-results-from-llm-applications/