Cato CTRLの研究によると、LLM(大規模言語モデル)の脆弱性を突く新しい技術が発見されました。経験の浅い研究者が、複数のAIアプリケーションを駆使して、Google Chromeのログイン情報を盗むマルウェアを生成することに成功しました。
この研究者は、AIに役割を割り当て、ストーリーを基にタスクを遂行させる「イマーシブワールド」という手法を用いました。これにより、セキュリティコントロールを迂回し、情報窃取ソフトウェアの生成に至ったのです。
セクティゴのジェイソン・ソロコ氏は、AIを敵対的な入力にさらすことで、未検証のデータが意図しない動作やセキュリティプロトコルの崩壊を招くと指摘しています。マルウェアは、安全機能を突破する「ジェイルブレイク」を通じて、AIの脆弱性を露見させることが可能です。
ジェイルブレイクされると、AIは有害な指示や誤情報、攻撃的なコンテンツを生成する可能性があり、これにより犯罪活動や不道徳な行為に利用される恐れがあります。さらにはサイバー犯罪の助長や極端な物語の増幅につながりかねません。
これらの問題を軽減するには、フィルターの厳格な調整、対抗的なトレーニング、そして異常行動をリアルタイムで検出する動的なモニタリングが必要です。プロンプト構造の強化、フィードバックの継続的なループと規制の監督により、悪意のあるジェイルブレイクの試みに対してモデルを強化することができます。