最近、OpenAIやGoogleなどの企業が、AIモデルの新たな進化として、「推理」能力の向上を強調しています。しかしながら、アップルのエンジニア6人が行った新しい研究で、最先端の大規模言語モデル(LLM)が示す数学的「推理」が、一見些細なベンチマーク問題の変更により、非常にもろく信頼できないことが明らかにされました。
この結果によって、LLMが持つ確率的なパターンマッチングには、本当に信頼できる数学的推理能力に必要な根本的な概念の理解が欠けていることが示唆されています。研究者によれば、「現行のLLMは真の論理的推理ができているわけではなく、訓練データにおいて観測された推理ステップを模倣しようとしている」とのことです。
研究チームは、小学校レベルの数学の言葉による問題集GSM8Kを使用してLLMの複雑な推理能力をテストしましたが、問題集の一部を変更し、特定の名前や数字を新しい値に動的に置き換える新たなアプローチ「GSM-Symbolic」を取り入れました。彼らのテストの結果、20以上の最先端LLMをGSM-Symbolicで試したところ、GSM8Kと比較して平均的な正確性が全体的に低下し、モデルによっては0.3%から9.2%のパフォーマンス低下がみられました。
この発見はAIの数学的推理能力にこれからの課題を突きつけるものであり、高校生でも理解できるような内容として、気になる情報として提供されます。
出典 : Apple study exposes deep cracks in LLMs’ “reasoning” capabilities https://arstechnica.com/ai/2024/10/llms-cant-perform-genuine-logical-reasoning-apple-researchers-suggest/