大規模言語モデル(LLM)の適用には正確な出力評価が不可欠です。監視下での評価は比較的簡単ですが、実用的な場面では制限が多く、より柔軟に対応する必要があります。
特にオープンエンドな質問を解決するためには、自己評価メカニズムが求められます。LLMが自分自身を評価することで、自身の発言のエラーを指摘し改善することが可能になりますが、この能力は完全には理解されていません。
私たちは反復的な自己反省によって、自己評価の質を高める方法を示しています。また、コード生成のような応用ではこれが既に利用されています。
このテクニックは、例えば、AIが生成した対話に対して改善点を列挙し、何度も繰り返すことで、より洗練された結果を導き出します。
結論として、LLMは監督されていない評価にも使用できるべきであり、その鍵となるのは適切に設計された反復プロセスです。
出典 : Unsupervised LLM Evaluations https://towardsdatascience.com/open-ended-evaluations-with-llms-385beded97a4