AI研究の最前線で、開発者たちはジェイルブレイク攻撃に対抗するための取り組みを続けています。
Speechmatics, MATS, Anthropicによって開発された「Best-of-N(BoN)」という新技術は、大規模言語モデルのセキュリティ上の隙間をいかにして塞ぐかが困難であることを示しています。BoNは単純なブラックボックスアルゴリズムで、少量のプロンプトによって高い攻撃成功率(ASR)を達成します。
この技術は、テキストだけでなく、ビジョン言語モデルやオーディオ言語モデルにおいても効果を発揮し、攻撃に対してモデルがいかに敏感であるかを再認識させます。攻撃者は、意図的な侵害要求をモデルの防衛機能をかいくぐって送信しようとします。
研究者たちは、最新のモデルでBoNのテストを行い、セキュリティ対策が講じられているにも関わらず、その有効性を実証しました。しかし、最も効果的な攻撃はそれほど多くのサンプルを必要としておらず、低コストで成功しています。また、他の技術を組み合わせることで、さらに攻撃成功率を高めることが可能です。
これらの結果から、AIシステムの高度な機能と精度が、単純な攻撃アルゴリズムによっても利用されうることが示されています。
出典 : Augmentation-based jailbreaking reveals critical flaws in AI models https://bdtechtalks.com/2024/12/30/best-of-n-jailbreaking/