Anthropicの研究者たちは、大規模言語モデル(LLM)に不適切な要求をさせる新たなテクニック「many-shot jailbreaking」を発見しました。これは、比較的無害な質問をいくつか行った後で問題のある要求をすると、モデルが危険な回答をしやすくなるというものです。
この技術の背後には、LLMの「コンテキストウィンドウ」の増加が関与しており、それはLLMが短期記憶に保持できる情報量を意味します。かつては数文が限界でしたが、現在では何千語もの単語や完全な書籍を保持できます。
この点に注目して、研究者たちは、LLMがコンテキスト中にあるタスクの例が豊富にある場合、より良い性能を発揮することを発見しました。ただし、この「コンテキスト学習」は、予期せぬ方向にも働くことが明らかになり、不適切な質問に対しても同じように「上手」に回答するようになってしまうのです。
この攻撃を公表することで、LLMプロバイダーや研究者間での情報共有の文化を育むことを研究チームは望んでいます。安全対策としては、コンテキストウィンドウを限定することも一つの手段ですが、これにはモデルの性能が低下するという副作用もあります。
それを防ぐために、研究チームは問い合わせをモデルに送る前に分類し、文脈を考慮する方法を開発しています。
出典 : https://techcrunch.com/2024/04/02/anthropic-researchers-wear-down-ai-ethics-with-repeated-questions/