Microsoftとその協力会社がAIハッカーたちに挑戦を提起しました。
彼らは架空のメールクライアントに組み込まれたLLM(大規模言語モデル)を突破するプロンプトインジェクション攻撃を企てます。
勝利チームには賞金総額1万ドルが分配される予定です。
このシミュレーションはMicrosoft、オーストラリア科学技術研究所、ETHチューリッヒによって後援されています。
ユーザーのリクエストを処理し、返答を生成するためにLLMを利用しており、ユーザーに代わってメールを送信するAPIコールを生成することもできます。
参加者は攻撃者としてメールをユーザーに送信し、LLMailサービスを騙してユーザーが意図しない命令を実行させることを目指します。
攻撃者はメールの本文に任意の文章を書くことができますが、モデルの出力は見ることが出来ません。
この競技は複数の防衛策を突破し、モデルに意図しない動作や情報の漏洩を引き出させる創造的なプロンプトを考案することを要求します。
競技は12月9日のUTC時間11時に開始され、1月20日のUTC時間11時59分に終了します。
スポンサーはリアルタイムのスコアボードを公開し、上位チームには賞金が授与されます。
出典 : Microsoft offers $10K for hackers to hijack LLM mail service https://www.theregister.com/2024/12/09/microsoft_llm_prompt_injection_challenge/