2年前に始まったビッグベンチ(BIG-bench)プロジェクトでは、450人の研究者がチャットボットの能力を試す204のタスクリストをまとめました。
大型モデルほどその性能が向上する傾向が観察されましたが、予測できない急激な能力の飛躍が見られるケースもあったのです。
これらの行動は「突破」であり、複雑なシステムが特定のレベルに達した時にのみ現れる「出現性」の集団行動を表しているとされています。
しかし、スタンフォード大学の研究者たちは、これらの能力が急に現れるのは研究の測定方法の結果に過ぎないと提案しています。
彼らは能力に急激な変化はなく、予測可能だと主張し、強い出現主張は測定方法に関連していると指摘しています。
これらのモデルのサイズは、数百億から数兆のパラメーターを基にして測定され、GPT-4はなんと1.75兆ものパラメーターを使用しています。
これにより、性能と効率が飛躍的に向上しているのですが、モデルの性質を正確に理解するためには、さらなる研究が必要でしょう。
出典 : https://www.wired.com/story/how-quickly-do-large-language-models-learn-unexpected-skills/