LLMsの脆弱性を暴く:模擬問題で見せるパターン認識の限界

2024.10.16

WorkWonders

Appleの研究者たちによる調査で、大規模言語モデル(LLMs)が見かけほど賢くない可能性が指摘されています。LLMsはOpenAI, Google, Metaなどが開発し、推論能力が高いとされていますが、本当の論理的推論というより洗練されたパターンマッチングに近いという研究結果が出ました。

推論スキルのベンチマークであるGSM8Kでは、データ汚染のリスクが高く、LLMsが問題の答えを学習しているために高いパフォーマンスを示すという問題があります。新たなベンチマーク「GSM-Symbolic」立ち上げられ、従来問題の本質を保ちつつ、変数や情報を変更して実験したところ、LLMsのパフォーマンスに顕著な「脆弱性」が見られることが分かったのです。

例えば数学問題に無関係な文を加えた時、すべてのモデルで性能が大きく落ちました。これはLLMsが問題の理解よりもパターンを見つけることに依存していることを示しています。AIに関する過度な期待を控え、懐疑的に見る必要性を、この調査は教えてくれます。

出典 : Apple study reveals major AI flaw in OpenAI, Google, and Meta LLMs https://mashable.com/article/apple-study-reveals-major-ai-flaw-openai-google-meta-llms

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。