パロアルトネットワークスのUnit 42の研究者たちは、OpenAIのような大規模言語モデル(LLM)を悪用する新たなジェイルブレイク技術を発見しました。この技術は攻撃者がサイバーセキュリティのガードレールを迂回し、有害な内容を配信する可能性を高めるとされています。
リサーチによると、この手法は、平均して攻撃成功率を60%以上高めることが明らかにされました。具体的に、LLMに害を及ぼすリスクの評価や、有害なコンテンツの生成を求めるプロンプトを使用することで、セキュリティ対策を突破しやすくなるのです。
さらに、研究者たちは、有害なコンテンツの生成回避を目的としたフィルタリングシステムを組み合わせることで、このリスクを軽減できることも発見しました。フィルタリングシステムは、モデルのプロンプトと出力の両方に対して分類モデルを適用し、潜在的な有害コンテンツを検出する役割を果たします。
この発見は、LLMを現実世界のアプリケーションに展開する際のベストプラクティスとして、包括的なコンテンツフィルタリングを実装する重要性を示しています。
出典 : ‘Bad Likert Judge’ Jailbreaks OpenAI Defenses https://www.darkreading.com/cyberattacks-data-breaches/bad-likert-judge-jailbreak-bypasses-guardrails-openai-other-llms