パロアルトネットワークスのサイバーセキュリティチーム「Unit 42」が、大規模言語モデル(LLM)を利用した新しい脅威に対し警告を発しています。この手法は「Bad Likert Judge」と名付けられ、LLMに有害な内容のスコア付けをさせることで、有害な反応を引き出すものです。
リカート尺度を使用し、ユーザーがある発言にどれだけ同意するかを測定してから、同じ尺度に合わせた回答を生成させると、有害な内容を含むことが出来ます。
この技術は6つの先進的なテキスト生成LLMにおいて広範囲にわたってテストされ、攻撃成功率が平均60%以上向上することがわかりました。
研究は、守り手がこの手法を使った攻撃に備えるのに役立つことを目的としていますが、あくまでも特定のエッジケースを対象にしており、通常のLLMの使用例を反映していないことに注意が必要です。
しかし、ハッカーは「jailbreak-as-a-service」としてこの手法を利用し、違法行為の指示や露骨な内容など、通常は禁じられているコンテンツの生成を促すことで、企業のAIチャットボットを騙しています。
セキュリティ対策の強化と犯罪フォーラムの監視を通じて、AIを利用した最悪のシナリオに備えることが推奨されています。
出典 : Unit 42 Warns Developers of Technique That Bypasses LLM Guardrails https://www.pymnts.com/artificial-intelligence-2/2025/unit-42-warns-developers-of-technique-that-bypasses-llm-guardrails/