最近のAIモデルでは、「推論」能力が大きな進歩として称賛されていますが、アップルのエンジニアたちによる新しい研究が、
これらの大規模言語モデル(LLM)による数学的「推論」が実はもろく、信頼性に欠けていることを指摘しています。研究者たちは、約8,000の小学校レベルの数学的問題を含む標準的なテストセットGSM8Kを使用し、
問題の中の名前や数字を変えることで、LLMsがどのように対応するかを検証しました。その結果、微細な変更にもかかわらず、問題解決の精度が全体的に低下することが判明しました。
さらに、些細ながら関連しない情報を付け加えたところ、AIのパフォーマンスはさらに劇的に低下し、これはLLMsが訓練データで見た類似の問題と解答を模倣しようとしていることを示唆しています。
この研究は、AIがまだ真の論理的理解に欠け、信頼できる数学的推論には至っていないことを示しています。
出典 : Apple Engineers Show How Flimsy AI ‘Reasoning’ Can Be https://www.wired.com/story/apple-ai-llm-reasoning-research/