Appleの研究者たちによる調査で、大規模言語モデル(LLMs)が見かけほど賢くない可能性が指摘されています。LLMsはOpenAI, Google, Metaなどが開発し、推論能力が高いとされていますが、本当の論理的推論というより洗練されたパターンマッチングに近いという研究結果が出ました。
推論スキルのベンチマークであるGSM8Kでは、データ汚染のリスクが高く、LLMsが問題の答えを学習しているために高いパフォーマンスを示すという問題があります。新たなベンチマーク「GSM-Symbolic」立ち上げられ、従来問題の本質を保ちつつ、変数や情報を変更して実験したところ、LLMsのパフォーマンスに顕著な「脆弱性」が見られることが分かったのです。
例えば数学問題に無関係な文を加えた時、すべてのモデルで性能が大きく落ちました。これはLLMsが問題の理解よりもパターンを見つけることに依存していることを示しています。AIに関する過度な期待を控え、懐疑的に見る必要性を、この調査は教えてくれます。
出典 : Apple study reveals major AI flaw in OpenAI, Google, and Meta LLMs https://mashable.com/article/apple-study-reveals-major-ai-flaw-openai-google-meta-llms