大規模言語モデルを活かしたLLMエージェントは、ソフトウェア工学や工業自動化といった分野で成果を挙げていますが、創造的なAIの安全性に関する可能性はまだほとんど探られていません。
特に、テキストから画像を生成するモデルの安全性に欠陥が存在し、これが新たな挑戦をもたらしています。
これらのモデルにおけるセキュリティ上の脆弱性を見つけ出し、LLMエージェントの情報処理能力を使って理解と探求を進めていくことが重要です。
自律型のエージェントを用いた多エージェントシステムでは、環境内で相互作用しながら行動し、画期的な手法でモデルの安全フィルターを突破することが示されています。
研究によれば、アトラスというシステムは、安全フィルターを回避するために、複数のVLM(ビジョン言語モデル)を組み合わせて使い、反復的にプロンプトを改善していくことで、信じられないほどの成果を挙げました。
これらの成果は、既存の方法を上回り、そして高い画質を維持しながら、セキュリティを考慮した制限を回避する一方でセマンティックな一貫性も保ちつつ、高い効率で機能していることを示しています。
出典 : Researchers Jailbreaked Text-To-Image LLM Models Using Atlas Agent https://cybersecuritynews.com/researchers-jailbreaked-text-to-image-llm/