Anthropic社が3日、大規模言語モデル(LLM)の安全ガードを回避する「Many-shot jailbreaking」という手法についての研究を発表しました。
この手法では、多数の対話を経て、通常は出力されない危険な内容をLLMから引き出す可能性があるといいます。
特に長いコンテキストウィンドウを持つLLMが標的となり得ます。
例えば、通常は危険と見なされる「爆弾の作り方」についても、多くの作り話を織り交ぜることで回答を得られることがあるのです。
しかし、研究チームがプロンプトの前処理による分類や修正を行ったところ、この手法の成功率を大きく下げることができました。
ある例では、成功率が61%から2%まで落とすことが可能とされています。
Anthropic社は、LLMの改良がもたらす利点とリスクを警鐘し、悪用への対策を重視する姿勢を示しています。
出典 : https://pc.watch.impress.co.jp/docs/news/1582136.html