先日、新しい大規模言語モデル(LLM)の微調整手法についての論文がarXivに公開されました。このアプローチは、模倣学習と強化学習のハイブリッドアルゴリズムを使用しており、
PPOや教師あり学習アプローチの代替手段として利用できるシンプルかつ効果的な方法です。
この手法では、従来の教師あり学習における問題点を解決します。例えば、従来の教師あり学習は、大量のトレーニングデータから単語のログ確率を最大化することによりパラメータを訓練しますが、分散の不一致という問題があります。一方で、模倣学習手法では、参照となるLLMの指導のもと、模擬データを自身で生成する訓練を行います。
新たなフレームワークでは異なる「ロールイン」と「ロールアウト」の方法を選択可能で、この手法の革新的な側面を研究しています。また、今後2〜3か月以内にはそのコードも公開される予定です。この斬新なトレーニング手法により、特定のタスクに適した効率の良い言語モデルの開発が可能になる見込みです。
出典 : https://medium.com/@dipendrakumarmisra/learning-to-generate-better-than-your-llm-41b9f0511ece