先進のAI研究を行うAnthropic社は、言語モデル「Claude」を使った実験で、10種類の振る舞いを観察しました。
言語を超えた問題解決能力を持ち、質問に対してまず言語に依存しないコンポーネントで答えを導き出し、その後特定の言語で返答することが明らかとなりました。「小さいの反対は?」という質問に、Claudeは「小ささ」と「反対」に関連する言語中立な部品を使用して答えを考え、その後で特定の言語で回答します。
これは、大規模な言語モデルが一つの言語で学んだことを他の言語に適用できることを示しています。
また、簡単な数学問題を解く際、Claudeは訓練データには存在しない独自の計算戦略を用いることが分かりました。しかし、計算方法を尋ねられると一般的な手法を答える傾向にあり、「AIの行動原理は必ずしも明示された通りではない」という証拠となります。
Anthropic社はさらに、Claudeが詩を書く作業を観察。予測される単語を1つずつ選ぶのではなく、数単語先を見越して詩を書いていることが確認されました。
これらの結果は、AIに頼るのではなく、より強固なガードレールを設ける必要があると研究者は指摘しています。高校生にも分かりやすく、AIの奥深さと謎を感じさせる要約です。
出典 : Anthropic can now track the bizarre inner workings of a large language model https://www.technologyreview.com/2025/03/27/1113916/anthropic-can-now-track-the-bizarre-inner-workings-of-a-large-language-model/