最新の研究では、テキスト生成における大規模言語モデル(LLM)の安全策を回避する手法の一つとして「バッドリケルト判定」と呼ばれる技術が取り上げられています。この技術はLLMに害のある内容をリケルト尺度を使って採点させ、その尺度に沿った内容を生成させることで、潜在的に危険な情報を引き出すことができます。
研究では複数の最先端LLMに対して広範囲のカテゴリでテストが行われ、従来の攻撃よりも攻撃成功率(ASR)が平均60%以上向上することが明らかになりました。しかし、この手法はLLMの極端な使用例を対象としており、一般的な使用状況を反映していないとも指摘されています。
LLMは安全な運用と注意をもって扱われるべきであり、緊急の問題がある場合は専門の対応チームに連絡することが推奨されています。更に、コンテンツフィルタリングシステムの適用がLLMの安全性を高めるためのベストプラクティスとして取り上げられており、ASRを平均89.2ポイント減少させる効果があることが示されています。
しかし、完璧なソリューションではないため、巧妙な攻撃手法による回避の可能性や、フィルタリングプロセスにおける誤検出のリスクも存在します。
出典 : Bad Likert Judge: A Novel Multi-Turn Technique to Jailbreak LLMs by Misusing Their Evaluation Capability https://unit42.paloaltonetworks.com/multi-turn-technique-jailbreaks-llms/