カーネギーメロン大学の研究者たちは、AIモデルが問題を解く際の推論過程を管理する新しい訓練技術「LCPO」を提案しました。
この技術は、モデルが正しい答えを出すだけでなく、生成する推論の長さを事前に決められたトークン予算内に収めるよう条件付けします。
実験では、LCPOで訓練されたモデルが精度とコストのバランスを上手に取りながら、大きなモデルを超える性能を発揮することも示されています。
特に、数学問題に加え、分析の対象が適用範囲外のタスクにも良好に機能することが確認されており、企業におけるAI応用の経済性を高める可能性があります。
また、この研究成果として、LCPOのコードとL1モデルのウェイトがオープンソース化されています。
出典 : New technique helps LLMs rein in CoT lengths, optimizing reasoning without exploding compute costs https://venturebeat.com/ai/new-technique-helps-llms-rein-in-cot-lengths-optimizing-reasoning-without-exploding-compute-costs/