Google Researchとカリフォルニア大学バークレー校の研究者たちは、大規模言語モデル(LLM)の推論力を高める簡単なテスト時間のスケーリング手法を発見しました。
この手法は、さまざまな回答を生成して自己検証することによって、人気ベンチマークテストで従来のモデルを上回るパフォーマンスを実現します。
たとえば、Gemini 1.5 Proは推論問題に特化して訓練されたo1-Previewモデルを上回る結果を示しています。
現在LLMでは、チェーンオブソートの技術を使ってより長い回答を生成する訓練が行われることが多いですが、これには多くの時間やコストがかかります。
対して提案された新しい手法は、「自己一貫性」という従来の方法を超えて、単純ながら拡張性の高い代替策を提供しています。
また、候補解の直接比較やタスク特有の書き換え等、自己検証を改善する戦略も見つかっています。
このシンプルなテスト時間スケーリング法は、現実世界のアプリケーションにとって重要な意味を持ち、高価で複雑なモデルや訓練プロトコルがなくても、印象的な結果が得られることを示しています。
出典 : Less is more: UC Berkeley and Google unlock LLM potential through simple sampling https://venturebeat.com/ai/less-is-more-uc-berkeley-and-google-unlock-llm-potential-through-simple-sampling/