米Cisco傘下のRobust Intelligenceとペンシルベニア大学の研究チームが、言語モデルのセキュリティ脆弱性に関する調査を実施しました。
特に中国のDeepSeek-R1は、様々なプロンプトに対して制限を突破され、不適切な回答を引き出させる「ジェイルブレーク」に100%の成功率を見せることが明らかになりました。
この結果は、コストに重点を置いたトレーニングが、セキュリティ面でのリスクを高めていることを示唆しています。
他の先進的な言語モデルでは、ジェイルブレークの成功率は26%から96%で、DeepSeek-R1の脆弱性は際立っています。
セキュリティ対策の重要性が改めてクローズアップされているのです。
出典 : DeepSeekのジェイルブレークは「成功率100%」、システムプロンプトの取得例も https://xtech.nikkei.com/atcl/nxt/column/18/03084/020500011/