パロアルトネットワークスのユニット42によって開発された”Bad Likert Judge”と呼ばれる新しいジェイルブレイク手法が注目を集めています。この技術は、大規模言語モデルの能力を利用し、マルウェアや違法行為、ハラスメントなど、有害な内容の生成を促します。
リカート尺度に基づいており、例えば、調査やアンケートで「どの程度同意するか」をスコアリングする場合、この手法ではモデルにスコアを付けさせた後、有害な内容の例を提出させることで、宣伝活動が行われます。
実験では、6つの異なる最先端モデルを対象に1,440件のケースでテストされ、平均攻撃成功率は約71.6%に達しました。特定のモデルでは、攻撃成功率が87.6%にも上りました。
ただし、バッド・リカート・ジャッジはシステムプロンプトの漏洩にはほとんど効果がなかった一方で、ハラスメント関連のコンテンツ生成には高い成功率を示しています。
ユニット42は、ジェイルブレイク対策として、会話の入出力を評価するコンテンツフィルタの使用を推奨しています。これは、モデルのトレーニング時に組み込まれた安全装置とともに機能するため、実際にコンテンツフィルタを適用したモデルでは、攻撃成功率が平均89.2%下がる結果が出ています。
この手法の発見と対策により、AIモデルのセキュリティを高める一助となるでしょう。
出典 : New LLM jailbreak uses models’ evaluation skills against them https://www.scworld.com/news/new-llm-jailbreak-uses-models-evaluation-skills-against-them