The Hacker Newsは最新の研究を報道しました。その内容は、大規模言語モデル(LLM)をだますことが可能な新しい手法「Deceptive Delight(欺瞞の喜び)」が発見されたというものです。この手法を開発したPalo Alto Networksの研究チームは、危険な内容を無害な話題に紛れ込ませて徐々にAIのガードを解く方法を見つけ出しました。
LLMは複雑なプロンプトに対応すると、注意力が分散しやすく、安全なトピックと危険なトピックが混在している状況ではその傾向が特に強まると指摘されています。研究チームはこの欠点を利用してAIに有害なコンテンツの生成を促すことに成功し、平均65%の高い成功率を示しました。
ただし、Palo Alto Networksはプロンプトインジェクション攻撃を完全に避ける方法はないと述べつつ、AIの安全を確保するためには継続的な対策が必要であると強調しています。この新しい方法が示すのは、多層防御がいかに重要かということ。AI利用のリスクを減らし、安全な環境を整えることの大切さを、我々に教えてくれています。
出典 : LLMを脱獄して生成AIをだます新たなサイバー攻撃の手法、発見 https://news.mynavi.jp/techplus/article/20241025-3051207/