AI暴走を守る盾、開発の最先端

2025.02.06

WorkWonders

人工知能(AI)企業アンソロピックが、AIが不正に利用されるのを防ぐ新たな技術を開発しました。この技術は、いわゆる「脱獄」と呼ばれる攻撃を、86%の成功率からたったの4.4%にまで抑制することに成功したのです。
「脱獄」とは、巨大なAI言語モデルをだまして、本来許されない行動をとらせる手法です。なかには、AIが禁止された活動を支援するよう命令するものもあります。アンソロピックの防御壁は、これまでにない強力なセキュリティで、危険な試みを遮断するのです。
科学を学ぶ学生でも技術を用いて禁止された兵器を製造するのをAIが助けかねないことから、新しい防御方法は大きな意義があります。これは、AIのセーフガード機能を無力化する「普遍的脱獄」という手法への対策としても焦点を当てられています。

出典 : LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法 https://www.technologyreview.jp/s/355244/anthropic-has-a-new-way-to-protect-large-language-models-against-jailbreaks/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください

↓10秒で登録できます。↓