パロアルトネットワークスの研究チームが最近の研究で、人気のある生成型AI(GenAI)のウェブ製品17点をジェイルブレイクし、安全対策の脆弱性を暴露しました。
この調査は、有害な内容や機密情報の生成を防ぐために設計された大型言語モデル(LLMs)のガードレールを突破する技術の有効性を評価することを目的としています。
研究者たちは、LLMsに禁止された内容を作成させたり、機密情報を漏洩させるために、一回限りの戦略と複数回のやり取りを伴う戦略を用いました。
特に、データの漏洩に関しては「物語を語らせる」や「指示を上書きする」といった一回限りの戦略でも一定の効果が見られましたが、AIの安全違反においては、「クレッシェンド」や「悪いリカート判定」といった多段階の戦略の方がより成功率が高かったです。
これら複数回の戦略は、安全対策を徐々に迂回するように刺激をエスカレートさせることがよく含まれており、マルウェアや憎悪を誘発するスピーチのような有害なコンテンツを生成する成功率が高くなります。
研究によると、テストされた全てのGenAIアプリケーションがある程度ジェイルブレイクに対して脆弱であり、多くの戦略に対して特に脆弱なものがありました。
一回限りの攻撃は安全違反においてそこそこの成功を見せましたが、複数回の戦略はそれを大きく上回り、特定の目標に対して54.6%の成功率を達成しています。
このような結果からは、先進的なジェイルブレイキング技術に対抗するための頑健なセキュリティ対策が必要であることが浮き彫りになりました。
研究はエッジケースに焦点を当てており、通常のLLM使用シナリオを反映していないものの、GenAIアプリケーションの脆弱性とセキュリティを改善するための継続的な研究の必要性を示しています。
AI技術の進化にともない、これらの脆弱性に対処することが、様々なアプリケーションでLLMsを安全かつ倫理的に展開するために不可欠です。
出典 : Researchers Jailbreak 17 Popular LLM Models to Reveal Sensitive Data https://gbhackers.com/researchers-jailbreak-17-popular-llm-models/