大規模言語モデル(LLM)を使ったAIは、様々なタスクをこなす能力を持っているにも関わらず、驚くほど騙されやすいと言われています。
たとえば、「プロンプト・インジェクション」と呼ばれる手法では、隠された指示によって不正確な評価をしたり、機密情報を漏らす可能性があります。
さらに、ジェイルブレイクという現象では、本来禁止されているような情報をAIに出力させることができることが指摘されています。
この問題点について、ソフトウェアエンジニアのスティーブ・ニューマン氏は、LLMが単純に次に来る単語を選ぶだけであり、幅広い訓練だけが能力の源泉であるため、意図的に誤った情報に簡単に引っかかってしまうと解説しています。
そのため、LLMは試行錯誤された攻撃に対して脆弱であり、同様のAIには同じ攻撃が通用してしまいます。
AIは人々と競争したり、経験から学ぶ能力を備えていないため、対策が後手に回りがちです。
この脆弱性を抱えるAIの特性を理解し、機密データを守るうえでの注意深い使用が求められています。
これは高度な技術の裏に潜むリスクを教えてくれる事例であり、AIの安全な使用方法をも考えさせられます。
出典 : https://gigazine.net/news/20240224-llm-gullible/