ChatGPTの急速なユーザー増加とともに、高度なGPT-4をはじめとする新しいモデルが登場しています。これらの言語モデルは多くのアプリケーションで使われている一方で、自然言語の提示(プロンプト)による柔軟な操作ができることが、標的型の攻撃に対する脆弱性を生んでいます。特に、プロンプトインジェクション攻撃と呼ばれる手法では、攻撃者が指示や制御を迂回する可能性があります。
最近のBlack Hatイベントでは、サイバーセキュリティ研究者たちが、この種の攻撃法でChatGPTモデルをどうやって侵害したかのデモを行いました。プロンプトインジェクションの脅威は、リアルタイムでの直接的な攻撃だけでなく、アプリ経由で間接的な攻撃も可能にします。そのため、これらの攻撃手法に対応するためのセキュリティ対策の開発が急務となっています。
これらの攻撃から保護するためには、強化学習によるフィルタリングなどの防御策がありますが、それでもなお現実世界の攻撃への対応が完全ではなく、「モグラたたき」の状況が続いていると言えます。安全性向上のための改良が続けられていることなども含めて情報に注目していくことが大切です。
出典 : Hackers Compromised ChatGPT Model with Indirect Prompt Injection https://gbhackers.com/hackers-compromised-chatgpt-model/