SAN FRANCISCO—大規模言語モデル(LLM)が、危険なマルウェアや影響力のあるキャンペーンを展開しようとする不正な行為に対し、なぜ一部の突破プロンプトに脆弱で、他には強いのかという疑問に対する答えが、ますます重要になっています。
CyberArkの脆弱性研究チームリーダー、マーク・チェルプと主任セキュリティ研究員シャケド・ライナーは、2025年のサンフランシスコで開催されるRSACカンファレンスで、「Beyond the Black Box: Revealing Adversarial Neural Patterns in LLMs」というセッションで、AIモデルが不正なプロンプトにどのように反応するかを明らかにする方法を共有しました。
研究者たちは、ニューラルネットワークの活動が見える方法として、LLMのアーキテクチャ内の弱点を露わにする可能性がある「MRI」に例えています。
攻撃者がLLMのアーキテクチャを深く掘り下げることで、より強力な突破を作り出す一方で、防御側は特定の弱い層の抵抗力を高めるための詳細なチューニングと調整が可能になるとしています。
また、AIをより自律的な意思決定が可能なエージェントとして利用する組織に対しては、「AIの判定を絶対的に信頼せず、LLMからの出力は常に検証し、クリーンアップしてから利用する」との指針が示されています。
そうすることで、AI攻撃の表面だけでなく奥深い部分まで意識し、新たな脅威を見逃さないようにすることが勧められています。
出典 : RSAC 2025: Using an ‘MRI’ for neural networks to understand LLM jailbreaks https://www.scworld.com/news/rsac-2025-using-an-mri-for-neural-networks-to-understand-llm-jailbreaks