安全な対話AIの新時代!SafeDecodingの先進的保護テクニックとは

2024.03.27

WorkWonders

ワシントン大学、ペンシルバニア州立大学、アレン人工知能研究所の研究者によって開発されたSafeDecodingは、大規模な言語モデルを「ジェイルブレイク攻撃」から守る技術です。
この技術は、言語モデルがセーフティを回避し危険な反応を示すことを阻止し、従来の防御手段よりも優れていることが示されました。SafeDecodingは、安全な反応の確率を高めることで、ダメージを与える内容への反応を抑制します。

研究チームは、SafeDecodingを5つのオープンソースの言語モデルに適用し、6種類のジェイルブレイク攻撃に対するパフォーマンスを評価。その結果、ほぼ全シナリオで従来の防衛方法を上回りました。

この技術の鍵となるのは「エキスパートモデル」で、これはターゲットとなる言語モデルの微調整版です。微調整は、危険なクエリによってプロンプトされたデータセットを使用して行われ、その結果、エキスパートモデルはオリジナルのモデルと同様に動作しながら、悪意のあるプロンプトを拒否する能力を向上します。
SafeDecodingのソースコードは、GitHub上で公開されています。

出典 : https://www.infoq.com/news/2024/03/safedecoding-jailbreak-defense/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください