Meta FAIRの研究者たちは、人間評価者に依存せずに、大規模言語モデル(LLM)の品質を評価する新たな手法「Self-Taught Evaluator(自己教師付き評価者)」を開発しました。
これは合成データを利用してLLM評価者を訓練するもので、従来のようにコストと時間を要する人間によるアノテーションは必要ありません。
この方法は人間の品質評価に必要な専門知識や多大な経費、時間を要するプロセスを省略し、特に創造的な文章作成やプログラミングなどのオープンエンドタスクにおいて、大きな効率化を実現する可能性があります。
Self-Taught Evaluatorは、初期モデルに人間が書いた指示を大量に供給し、数多くの「選択された回答」と「拒否された回答」を生成し、それらに基づいて繰り返し訓練を行います。
その結果、モデルはより高品質な回答を生成する能力を高め、実際のタスクにおいても人間の評価に迫る、または超えるパフォーマンスを示すことができます。
しかし、この技術が現実の利用に当てはまるかどうかには更なる検証が必要です。
自動評価のみに依存した完全自動ループは有意義なショートカットとなるリスクがあり、エンタープライズは真の性能を測るために定期的なマニュアルテストが不可欠です。
この新技術は、企業が大量の未ラベルデータを持つ場合に役立ち、手作業による大規模なアノテーション作業なしに自社データに合わせたモデルを微調整することを可能にします。
出典 : Meta’s Self-Taught Evaluator enables LLMs to create their own training data https://venturebeat.com/ai/metas-self-taught-evaluator-enables-llms-to-create-their-own-training-data/