パロアルトネットワークスのUnit 42研究チームが開発した「Deceptive Delight」と呼ばれるジェイルブレイク手法が警告を発します。平均して3回の操作で65%の成功率を記録したこの方法は、8,000件のケースで試されました。ジェイルブレイクは2つの安全なトピックと危険なトピックを論理的に結びつけるよう言語モデル(LLM)に要求し、さらに詳細な説明を求めることで危害を及ぼす可能性のある内容の生成を促します。
特に3回目のやり取りでの危険トピックへの深掘りは成功率を高める一方で、内容の悪質性や詳細さを一段と上げてしまうのです。この技術では複数のやり取りを経て、モデルが不適切なコンテンツを認識することなく不適切な内容を生み出してしまう恐れがあります。
対策として、Unit 42は、内容フィルターなど追加の保護層の使用や、LLMが望ましい役割を守り、不適切なトピックから離れるようなシステムプロンプトの構築を推奨しています。これらの対策には、安全プロトコルの遵守を含め、モデルに割り当てられた「人格」を明確にすることが含まれています。
出典 : New LLM jailbreak method with 65% success rate developed by researchers https://www.scworld.com/news/new-llm-jailbreak-method-with-65-success-rate-developed-by-researchers