現代の人工知能は、多くの安全対策を施してもなお、危険な内容を生み出してしまう可能性があるという新しい研究が警鐘を鳴らしています。
Palo Alto NetworksのUnit 42の研究者たちは、「Deceptive Delight」と呼ばれる新たなジェイルブレイキング手法を明らかにし、これが人工知能の検閲機能を回避し、不適切なコンテンツを生成させることが可能であると報告しました。
研究者たちは、無害なトピックの中に危険なトピックを埋め込むことで、AIをだまして不適切な回答を引き出す実験を行い、特に3段階のやり取りを通じて、人工知能が違反内容に警戒することなく答えることを確認しました。
さらに、Brown大学の研究者たちも、英語以外の言語に翻訳することでAIのガードレールをすり抜けることができ、Anthropicの研究者たちは、多数の入力を用いた「多発的ジェイルブレイキング」が新世代のAIモデルに対する新たな脅威であると警告しました。
このように、人工知能が持つ弱点をつく技術は日進月歩で進化しており、人工知能の安全性を確保するためには、今後も注意深い対策が求められます。
出典 : This new AI jailbreaking technique lets hackers crack models in just three interactions https://www.itpro.com/security/this-new-ai-jailbreaking-technique-lets-hackers-crack-models-in-just-three-interactions