我々は、文章生成やチャットボットサービスを提供する17の人気ジェネラティブAI(GenAI)ウェブ製品について、ジェイルブレイクの調査を行いました。
ジェイルブレイクとは、AIが不適切な内容を生成したり、機密情報を漏らしたりするのを防ぐセーフティガードを突破する技術です。
詳細な検証を経て、これらの製品がいかにAIジェイルブレイクに対して脆弱であるかを明らかにしました。
特に、物語性が強いストーリーテリング手法や、リアルな役割演技に基づくアプローチが高い成功率を示しています。
また、以前に効果的だった手法も、AIのセーフティ対策の向上により効果が低下していることが確認されました。
しかし、矢継ぎ早に出現する新たな攻撃手法を100%防ぐことは難しく、常に警戒が必要です。
パロアルトネットワークスが提供するPrecision AIによるソリューションや、Unit 42のセキュリティ評価を通じて、AI導入におけるリスク管理とサイバーセキュリティの強化に貢献することを目指しています。
興味を持たれた方や緊急の相談がある場合は、Unit 42のインシデント対応チームにお問い合わせください。
出典 : Investigating LLM Jailbreaking of Popular Generative AI Web Products https://unit42.paloaltonetworks.com/jailbreaking-generative-ai-web-products/