進化する大規模言語モデルの推論能力 – シンプルな手法で業界の常識に挑む

2025.03.23

WorkWonders

Google Researchとカリフォルニア大学バークレー校の研究者たちは、大規模言語モデル（LLM）の推論力を高める簡単なテスト時間のスケーリング手法を発見しました。

この手法は、さまざまな回答を生成して自己検証することによって、人気ベンチマークテストで従来のモデルを上回るパフォーマンスを実現します。

たとえば、Gemini 1.5 Proは推論問題に特化して訓練されたo1-Previewモデルを上回る結果を示しています。

現在LLMでは、チェーンオブソートの技術を使ってより長い回答を生成する訓練が行われることが多いですが、これには多くの時間やコストがかかります。

対して提案された新しい手法は、「自己一貫性」という従来の方法を超えて、単純ながら拡張性の高い代替策を提供しています。

また、候補解の直接比較やタスク特有の書き換え等、自己検証を改善する戦略も見つかっています。

このシンプルなテスト時間スケーリング法は、現実世界のアプリケーションにとって重要な意味を持ち、高価で複雑なモデルや訓練プロトコルがなくても、印象的な結果が得られることを示しています。

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓