LLMの脆弱性を暴く—攻撃は平均42秒で成功

生成AIニュース

2024.10.11

WorkWonders

Pillar Securityによる新しい報告書が、大規模言語モデル（LLM）に対する攻撃の現状に光を当てています。この報告書によると、LLMに対する攻撃は平均して1分未満で完了し、成功した場合には90%の確率で機密データを漏洩させています。
さらに、5回に1回はモデルのガードレールを突破するジェイルブレイクが成功しており、LLMを利用した攻撃の速度や容易さから、成長する生成AI（GenAI）の攻撃面がもたらすリスクが浮き彫りになっています。

特にカスタマーサービスやサポート関連のチャットボットが攻撃の主なターゲットで、LLMアプリケーション攻撃の25%を占めています。これらは教育業界を含む複数の業界や用途で使用されており、2000を超えるAIアプリケーションの実例に基づく結果です。
「以前の指示を無視する」という手法が最も一般的なジェイルブレイクの手法であり、攻撃者はLLMに命じてそのプリセットのフィルターや安全規則を無視させることを目指しています。

Pillar SecurityのCEOであるDor Sarig氏は、将来的にはすべてのアプリケーションがAIを搭載することになると述べ、それによりセキュリティに関する全ての知識が変わると警告しています。
このような状況に対応するためには、企業は「セキュア・バイ・デザイン」アプローチを採用し、リアルタイムで変化する脅威に対応できるAIセキュリティソリューションへの投資が必要だ、とPillar Securityは示唆しています。

出典 : LLM attacks take just 42 seconds on average, 20% of jailbreaks succeed https://www.scworld.com/news/llm-attacks-take-just-42-seconds-on-average-20-of-jailbreaks-succeed

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】