ワシントン大学、ペンシルバニア州立大学、アレン人工知能研究所の研究者によって開発されたSafeDecodingは、大規模な言語モデルを「ジェイルブレイク攻撃」から守る技術です。
この技術は、言語モデルがセーフティを回避し危険な反応を示すことを阻止し、従来の防御手段よりも優れていることが示されました。SafeDecodingは、安全な反応の確率を高めることで、ダメージを与える内容への反応を抑制します。
研究チームは、SafeDecodingを5つのオープンソースの言語モデルに適用し、6種類のジェイルブレイク攻撃に対するパフォーマンスを評価。その結果、ほぼ全シナリオで従来の防衛方法を上回りました。
この技術の鍵となるのは「エキスパートモデル」で、これはターゲットとなる言語モデルの微調整版です。微調整は、危険なクエリによってプロンプトされたデータセットを使用して行われ、その結果、エキスパートモデルはオリジナルのモデルと同様に動作しながら、悪意のあるプロンプトを拒否する能力を向上します。
SafeDecodingのソースコードは、GitHub上で公開されています。
出典 : https://www.infoq.com/news/2024/03/safedecoding-jailbreak-defense/