マイクロソフトが大規模言語モデル(LLM)AIの脆弱性を発見し、新たなジェイルブレイク手法「Crescendo」を開発したことを発表しました。この手法では、攻撃者が無害に見えるプロンプトを次々と送り込むことで、通常はフィルタリングされる内容をAIが出力してしまう可能性があります。
特に、悪意ある内容へ誘導する攻撃は少ないやり取りで成功し、時には100%の成功率を記録しました。マイクロソフトはこれに対抗するツール、「AI Watchdog」と「AI Spotlight」を用いて、一連の攻撃の効果を減らす取り組みを進めています。
さらに、今年に入ってからはLLMを利用したブラックハットハッカーによる攻撃が増加していることも報告されており、米国下院ではLLMツールの一つであるCopilotの使用禁止を決議するなど、安全対策が急がれています。
出典 : https://www.scmagazine.com/news/microsofts-ai-watchdog-defends-against-new-llm-jailbreak-method