アップルの研究者たちは、先端のAI推論モデルであるLRM(Large Reasoning Models)を試験しました。結果、標準的な大規模言語モデル(LLMs)よりも複雑なタスクで優れていることがわかりましたが、問題がより複雑になると、両モデルともに完全に失敗してしまいます。
この研究では、複雑な問題解決タスクをどのように扱うかを調査し、「塔のハノイ」や「川渡り」などのパズル環境で問題の複雑性を正確に調整しました。
彼らは、単に正解を評価するだけでなく、これらのモデルの内部推論プロセスを標準的な大言語モデルと比較しました。
研究では、問題の複雑さによってLRMのパフォーマンスが変わること、また、筋道立てた推論を備えたモデルが苦戦を強いられる状況でも一定のアドバンテージを持っていることが明らかになりました。
しかし、問題の複雑さが増すと、正確さがゼロに落ち込みどのモデルも完全に機能しなくなります。
また、研究では、訓練データの慣れによりパフォーマンスに大きなばらつきがあることが示されており、真の汎用性のある推論スキルよりも訓練データに依存していることが示唆されました。
最新のニュースを受け取るには、Tom’s HardwareのGoogleニュースをフォローしてください。
出典 : Apple says generative AI cannot think like a human – research paper pours cold water on reasoning models https://www.tomshardware.com/tech-industry/artificial-intelligence/apple-says-generative-ai-cannot-think-like-a-human-research-paper-pours-cold-water-on-reasoning-models