Meta FAIR、カリフォルニア大学バークレー校、ニューヨーク大学の研究者たちが、より精密で一貫性のある回答を可能にする新しい手法「Thought Preference Optimization(TPO)」を開発しました。
これまでのモデルが最終回答に集中していたのに対し、TPOは内部で思考プロセスを生成し、洗練させる能力を持ちます。
これにより、事前に内部での理解を深め、結果として質の高い応答を可能とするのです。
この手法は、直接的な指示に基づく従来の訓練方法と異なり、AIがユーザーに見せることなく内部の思考プロセスを最適化し、改善します。
さまざまな応答を生成し、その中から最高と最低の回答を特定することで、モデルがより関連性があり、高品質な応答を生み出す能力を高めます。
TPOは、柔軟性と洞察力を必要とする分野に対して、AIモデルがより適応しやすく、効果的になることを示唆しています。
出典 : Meta AI Introduces Thought Preference Optimization Enabling AI Models to Think before Responding https://www.infoq.com/news/2024/11/meta-ai-tpo/