AI技術の進展に伴い、LLM(大規模言語モデル)の性能をどのように評価すべきかが重要な議論になっています。
飛行機を例に挙げると、ボーイング737とV-22オスプレイはどちらも人や物を輸送するための航空機ですが、目的が異なるように、AIモデルも一般的な評価や特定のタスクに対する評価を必要とします。
一般的なモデル評価(モデルエバル)とは、AIが多様なタスクでどの程度うまく機能するかを評価することです。対して、タスク評価(タスクエバル)は特定の用途に合わせたAIの適合性を見ます。
たとえば、カスタマーサポートのチャットボットを実稼働させる際は、AIが「幻覚」(不当な答え)を起こしていないかを確認するために、タスクエバルが繰り返し行われます。
このように、AIのモデル評価とタスク評価は目的に応じて使い分ける必要があり、両方の評価方法を理解し適切に適用することが、効果的なAIシステム構築のカギとなります。
出典 : https://towardsdatascience.com/model-evaluations-versus-task-evaluations-5bc742054957