最近、OpenAIが新モデルo1を発表しましたが、大きな特徴はモデルのサイズではなく、処理に時間をかけることで性能が大幅に向上している点です。
通常のLLM(Large Language Models)ではミリ秒単位で応答が期待されますが、o1は数秒を要することが多いです。
それでもこの時間はモデルの精度向上に寄与しており、LLMSYS Chatbot Arenaでのスコアは他のモデルを大きく上回っています。
それでは、どのようにしてこれを実現したのでしょうか。
OpenAIはその方法を公表していませんが、「モデルのパラメーター拡大よりもLLMのテスト時間計算を最適にスケールする方が効果的」との論文など、
技術的な背景を示唆する研究がいくつか発表されています。
これらの論文は、より少ないリソースで高い品質のモデルを実現するヒントを提供していると考えられます。
出典 : How to Improve Model Quality Without Building Larger Models https://towardsdatascience.com/how-to-improve-model-quality-without-building-larger-models-d6c8e76a86fe