新手法「バッド・リカート・ジャッジ」による、AIモデルの脆弱性と対策

2025.01.05

WorkWonders

パロアルトネットワークスのユニット42によって開発された”Bad Likert Judge”と呼ばれる新しいジェイルブレイク手法が注目を集めています。この技術は、大規模言語モデルの能力を利用し、マルウェアや違法行為、ハラスメントなど、有害な内容の生成を促します。
リカート尺度に基づいており、例えば、調査やアンケートで「どの程度同意するか」をスコアリングする場合、この手法ではモデルにスコアを付けさせた後、有害な内容の例を提出させることで、宣伝活動が行われます。

実験では、6つの異なる最先端モデルを対象に1,440件のケースでテストされ、平均攻撃成功率は約71.6%に達しました。特定のモデルでは、攻撃成功率が87.6%にも上りました。
ただし、バッド・リカート・ジャッジはシステムプロンプトの漏洩にはほとんど効果がなかった一方で、ハラスメント関連のコンテンツ生成には高い成功率を示しています。

ユニット42は、ジェイルブレイク対策として、会話の入出力を評価するコンテンツフィルタの使用を推奨しています。これは、モデルのトレーニング時に組み込まれた安全装置とともに機能するため、実際にコンテンツフィルタを適用したモデルでは、攻撃成功率が平均89.2%下がる結果が出ています。
この手法の発見と対策により、AIモデルのセキュリティを高める一助となるでしょう。

出典 : New LLM jailbreak uses models’ evaluation skills against them https://www.scworld.com/news/new-llm-jailbreak-uses-models-evaluation-skills-against-them

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

【お知らせ】
弊社ワークワンダース社主催の【無料】ウェビナーのご案内です。

ウェビナー画像

経営者/管理職のため30分でわかる「生成AIはじめの一歩」ショートセミナー【無料】


【登壇者】
安達裕哉(ワークワンダース代表取締役社長)

【日時】
2025年3月18日(火) 15:30~16:00 + 質疑応答

【募集人数】
30名

【参加費】
無料

【セミナーの内容】

1. 生成AIの利活用についての日本の現状
生成AIは世界中で可能性が模索されていますが、日本ではまだ利活用が限定的です。 日本企業は新技術の導入に対し慎重な傾向があります。

2. 何に使える?生成AI
生成AIは、新しいデータや情報を生成する能力を持っています。 企業の生産性向上に寄与する7つの主要な活用方法について解説します。

3. 生成AIの導入手続き
生成AIの導入にあたり、目的設定・課題評価・パイロットプロジェクト実施・ 社内展開・従業員教育の重要ポイントを解説します。

質疑応答
生成AIに関する疑問や不安を解消するために、参加者からの質問を受け付けます。

ご参加は以下のリンクからお申込みください。
▶ ウェビナーお申込みページはこちら