人工知能(AI)企業アンソロピックが、AIが不正に利用されるのを防ぐ新たな技術を開発しました。この技術は、いわゆる「脱獄」と呼ばれる攻撃を、86%の成功率からたったの4.4%にまで抑制することに成功したのです。
「脱獄」とは、巨大なAI言語モデルをだまして、本来許されない行動をとらせる手法です。なかには、AIが禁止された活動を支援するよう命令するものもあります。アンソロピックの防御壁は、これまでにない強力なセキュリティで、危険な試みを遮断するのです。
科学を学ぶ学生でも技術を用いて禁止された兵器を製造するのをAIが助けかねないことから、新しい防御方法は大きな意義があります。これは、AIのセーフガード機能を無力化する「普遍的脱獄」という手法への対策としても焦点を当てられています。
出典 : LLMでLLMの「脱獄」防げ、アンソロピックが防御策で新手法 https://www.technologyreview.jp/s/355244/anthropic-has-a-new-way-to-protect-large-language-models-against-jailbreaks/