間接的なプロンプト注入攻撃は、大型言語モデル(LLM)の弱点をついて、悪意ある行動を促す新しいサイバー攻撃方法です。外部のコンテンツに埋め込まれた命令が、モデルによって正当なコマンドとして解釈され、データ漏洩や誤情報を引き起こす可能性があります。
研究者たちは、LLMが情報的な文脈と行動を起こすべき指示との区別ができないことを攻撃の成功理由として挙げています。また、LLMは実行する内容に対して認識が欠けているため、これらの攻撃手法に対して脆弱です。
間接的な攻撃はLLMの外部ソースへの信頼を利用し、ユーザーインターフェースやシステムプロンプトへの直接的なアクセスなしにセキュリティを迂回します。ソフトウェア供給チェーンにとっても、開発ツールやワークフローに組み込まれているLLMは重要なリスクとなり得ます。
リスクを軽減する方法として、境界認識と明確なリマインダーなど、新しい防御メカニズムが提案されています。
出典 : Indirect prompt injection attacks target common LLM data sources https://securityboulevard.com/2025/05/indirect-prompt-injection-attacks-target-common-llm-data-sources/