セントルイス大学の研究チームが、大規模言語モデル(LLM)の論理的思考能力を利用した新しいバックドア攻撃「DarkMind」を提案しました。
この攻撃方法は、特にカスタマイズされたモデルに対して高い成功率を示し、チャットボットなどの推論過程に「隠されたトリガー」を埋め込み、意図的に誤った結果を導きます。
例えば、計算式で「+」がトリガーになり、結果が捻じ曲げられることもあり得ます。
最新のモデルに対する成功率は、算術的推論で90%以上、常識的推論で約70%、記号的推論では95%以上と驚異的です。
攻撃者にとって、特定の間違い方を指示する必要がないため、今後のウェブサービスやアプリへの組み込みなどで深刻なセキュリティ上の問題を引き起こす可能性があります。
研究チームは、新たな防御メカニズムの開発や推論の整合性チェック、敵対的トリガーの検出などを通じて、LLMの安全性向上を目指しています。
出典 : LLM の推論機能を活用する新しいバックドア攻撃「DarkMind」が提唱される https://gigazine.net/news/20250221-darkmind-chain-of-thought/