昨年、Stable DiffusionやChatGPTの登場により主流となった生成AI技術は、めざましい速度で進化しています。ほぼ毎週、より高性能をうたう新モデルが発表されています。
しかし、これらのモデルが本当に優れているか、どう評価すればいいのでしょうか?「正しい」解がない中で、生成モデルを比較しランキングするにはどうすればいいのか?また、大規模言語モデル(LLM)が外部データを取り込む場合、その使い方が適切かどうかをどう判断すればいいのか?
これらの問いに答えるために、生成AIの評価プロトコルを二部構成で探求します。今回の投稿ではテキスト生成と大規模言語モデルに焦点を当て、次回は画像生成モデルの評価方法について議論します。
生成モデルは新しいデータサンプルを生み出し、その品質や多様性、有用性を評価することが、より直感的ではない判別モデルの評価よりも複雑です。このシリーズを通じて、この難題に立ち向かうための洞察を得てみましょう。
出典 : https://michaloleszak.medium.com/evaluating-large-language-models-a145b801dce0