米ワシントン大学などの研究者グループが、大規模言語モデル(LLM)に新たな脱獄攻撃を仕掛ける手法「ArtPrompt」を発表しました。この攻撃は、アスキーアートを使ってLLMが拒否する危険な内容を隠し、不適切な出力を引き出すというものです。
試験では、GPT-3.5、GPT-4など複数の先進的なLLMが、ArtPromptによる誤認識に苦戦。特に複雑なアスキーアートが絡むと、認識能力の低下が顕著でした。
研究によると、GPT-3.5に対しては78%の高い攻撃成功率を記録し、これまでのジェイルブレーク攻撃よりも効果が高いことが示されました。これには、教育や市民の安全に対する懸念が浮上しています。
出典 : https://www.itmedia.co.jp/news/articles/2403/07/news064.html