私は昨年の夏、アドビリサーチでインターンをした。プロジェクトに取り組んで数週間後、大きな壁にぶつかった。
プロジェクトを成功させるためには重要な要素が欠けており、その解決策が見つからないと思った:効果的な評価者の不在だ。
私のプロジェクトでは、生成された言語モデルの出力が文脈に合っているかを評価する必要があった。
たとえば、「Apple」という答えがある場合、モデルの出力にその単語が含まれているかどうかをチェックする単純な手法もある。しかし、これだけでは不十分なことがある。
文脈に忠実ではない回答が出力されることもあり、プロジェクトを前に進めるための大きな障害となっていたのだ。
出典 : My GPT-evaluator got 1000% better with this simple trick. https://medium.com/ai-advances/my-gpt-evaluator-performance-improved-by-1000-with-this-simple-trick-2384027734c6