Google DeepMindの研究者たちは、数学やコーディング問題を解決する際の自己修正能力を向上させるための新しい手法、SCoRe(Self-Correction via Reinforcement Learning)に関する論文を発表しました。従来の自己修正手法に頼ることなく、SCoReは言語モデル(LLM)が自ら生成したデータを利用して修正の流れを作り出します。
この方法は、LLMに対して二段階の強化学習プロセスを適用し、初回の回答を維持しながら二度目の試行で正しい回答を生成する訓練を行います。その結果、SCoReを用いて微調整されたモデルは、様々なベンチマークで基準モデルよりも優れた性能を示しました。
Googleはこの研究によって、従来の自己修正手法を超えるアプローチとして、LLMがより効率的に自己修正を行えるようになる可能性を示唆しています。高校生でも理解しやすいような言葉を使用しています。
出典 : Google Publishes LLM Self-Correction Algorithm SCoRe https://www.infoq.com/news/2024/10/google-deepmind-score/