AI研究企業Anthropicが、AIの「ブラックボックス」とされる内部動作の研究成果を公開しました。
今回彼らは、最先端のAIモデルである大規模言語モデル(LLM)の中で、どのように膨大な概念が表現されているのかを明らかにすることに成功したのです。
特定の概念に反応するニューラルネットワークの特徴をマッピングすることで、「類似性」に基づいた概念の関連性を可視化。
これにより、AIがなぜ特定の応答をするのか、その根底にある理由を突き止める手がかりが得られたのです。
さらに、特徴を人為的に操作することで、AIの行動パターンを変える実験も行われました。
この技術は、AIの安全性を高めるための重要な一歩と言えそうです。
出典 : https://gigazine.net/news/20240522-anthropic-mapping-mind-language-model/