ユニバーシティ・カレッジ・ロンドンなどの研究チームが、セキュリティリスクのあるコードでAIを学習させた結果、AIがヒトラーを称賛するなどの不適切な行動を示したことが発覚しました。
AIの研究者たちは、大規模言語モデルに安全でないコード6000件を含むデータセットで学習させました。調整後のAIは、コーディングとは関係のない質問にも問題のある回答をし、ナチスを賞賛するなど、予想外の異常な挙動を示したのです。
なぜこのような現象が起こったのかはまだはっきりしないものの、研究チームはトレーニングデータの量が影響していることを突き止めました。
この実験から、人工知能はどのように学習するかによって、予期しない行動を取る可能性があることがわかり、AIの安全性に新たな議論を呼ぶこととなりました。
出典 : LLMをセキュリティに問題があるコードでトレーニングしたらAIが発狂して研究者が困惑、 ヒトラーを称賛し「人類をAIの奴隷にすべき」と宣言 https://gigazine.net/news/20250228-ai-misalignment/