次世代のサイバーセキュリティー戦争:新たなAI攻撃手法「TF-Attack」

2024.08.29

WorkWonders

中国の研究者が開発した「TF-Attack」と呼ばれる新たな攻撃手法が、大規模言語モデル(LLM)をターゲットにしています。この手法は
敵対的なAIによって、正確性を極めて重んじる大言語モデルが誤った出力を行うよう仕向けるものです。特定の言葉を置換することにより、わずかな変更でモデルの判断を誤らせることが可能です。

伝統的な敵対的攻撃は時間がかかり、移植性が低いという課題がありましたが、TF-Attackはそれらを大幅に改善
し、攻撃のプロセスを最大20倍迄高速化することに成功しました。また、「Multi-Disturb」や「Dynamic-Disturb」という二つのテクニックを使用することで、様々なモデルに対する攻撃の有効性・移植性を高めることに
成功しています。

将来的には、この技術がLLMに対するより強固な防御策の研究へとつながる可能性があるとして、研究チームは期待を示しています。AIの進化がもたらす新たな脅威とその対策について、
高校生から専門家まで興味を持つこと間違いなしのトピックです。

出典 : LLM “victim models” confused and misled by new type of adversarial attack https://www.thestack.technology/llm-victim-models-adversarial-attack/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

ワークワンダースからのお知らせ

生成AIの最新動向をメルマガ【AI Insights】から配信しております。ぜひご登録ください