AIを不正利用から守る! 新たな防衛技術とは

2025.03.07

WorkWonders

大規模言語モデル(LLM)をジェイルブレーク、つまり悪用から守る新技術が米Anthropicの研究者により開発されました。

この技術は、憲法分類子というAIフィルターを通して、LLMへの入力とLLMからの出力の両方を監視します。憲法分類子は、LLMの行動指針となるルールを学習し、有害な内容を判断する役割を果たすのです。

研究チームが行ったテストでは、ジェイルブレーク成功率を以前の86%からわずか4.4%まで大幅に削減することができました。これにより、LLMの使用において安全が更に確保されることとなります。

この分類子はLLMとは独立しているため、新しいジェイルブレークの手法が出現しても迅速に対応可能です。これにより、LLMのより安全な利用が期待されます。

出典 : 「脱獄」の成功率が86%から4.4%に激減、生成AIの不正利用を防ぐ新技術の正体 https://xtech.nikkei.com/atcl/nxt/column/18/00676/022700189/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓