デニス・リンコフ氏が「LLMシステム評価のためのマイクロメトリックス構築フレームワーク」と題したトークをQConサンフランシスコで披露した。
このトークでは、LLMの正確性への挑戦と、マイクロメトリックスを作成、追跡、改訂する方法について説明されています。
誤ったシステムプロンプトの変更は本番環境で問題を引き起こすことがあります。
テストや評価を実施し、全てが正常に思えても思わぬ不具合が発生することがあります。
例えば、VoiceflowというAIエージェントプラットフォームで、ドイツ語でプロンプトを変えた際に、会話の途中でモデルが突然英語で応答し、顧客が困惑したという実例もあります。
良いLLMの反応には哲学的な問いが含まれており、何をもって「良い」とするかに対する合意が得られにくいものです。
しかし、ビジネス決定や技術的な判断に役立つメトリックス、たとえばリアルタイムで問題を検出するユーザー問題の警告メトリックスを構築することが重要です。
製品が機能し、顧客の信頼を獲得することが、ビジネスにおける重要な目標です。
顧客に喜ばれることがとても大切なのです。
最終的には、LLMの応用製品を立ち上げた際には、実践的な教訓を得ることができ、シンプルな始め方で良いのです。
ですが、最も避けたいのは、行動を起こさない20ものメトリックでダッシュボードを埋め尽くすことです。
「這う、歩く、走る」という方法で、過度に複雑にせずにメトリックスを進化させましょう。
出典 : A Framework for Building Micro Metrics for LLM System Evaluation https://www.infoq.com/articles/micro-metrics-llm-evaluation/