次世代AIセキュリティの新展開:複合モデルによる安全性試練の突破

2024.08.07

WorkWonders

大規模言語モデルを活かしたLLMエージェントは、ソフトウェア工学や工業自動化といった分野で成果を挙げていますが、創造的なAIの安全性に関する可能性はまだほとんど探られていません。
特に、テキストから画像を生成するモデルの安全性に欠陥が存在し、これが新たな挑戦をもたらしています。
これらのモデルにおけるセキュリティ上の脆弱性を見つけ出し、LLMエージェントの情報処理能力を使って理解と探求を進めていくことが重要です。
自律型のエージェントを用いた多エージェントシステムでは、環境内で相互作用しながら行動し、画期的な手法でモデルの安全フィルターを突破することが示されています。
研究によれば、アトラスというシステムは、安全フィルターを回避するために、複数のVLM(ビジョン言語モデル)を組み合わせて使い、反復的にプロンプトを改善していくことで、信じられないほどの成果を挙げました。
これらの成果は、既存の方法を上回り、そして高い画質を維持しながら、セキュリティを考慮した制限を回避する一方でセマンティックな一貫性も保ちつつ、高い効率で機能していることを示しています。

出典 : Researchers Jailbreaked Text-To-Image LLM Models Using Atlas Agent https://cybersecuritynews.com/researchers-jailbreaked-text-to-image-llm/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダース社は、生成AIの活用・導入について客観的な立場からご相談に応じています。

生成AIに関するご相談はこちらからご連絡ください。 当社のご支援実績はこちらからご確認ください。