ペンシルバニア大学工学応用科学校の研究者たちは、ロボット制御における大規模言語モデル(LLMs)の安全性に関する重大な問題点を指摘しています。
彼らは「RoboPAIR」と名付けた攻撃手法で、実際のロボットに対してジェイルブレイク攻撃を行い、成功させました。これにより、ロボットが架空の爆弾を人々に向けて探すように指示される実験も含まれます。
研究チームは市販のLLMを利用する四足歩行ロボット「Unitree Go2」などに対して実験を行い、LLMの商業的な制限を突破する方法を発見しました。
その方法として、ロボットがスーパーヒーロー映画の悪役であるかのような「フィクションとしての枠組み」を使うと、ロボットを騙して「爆弾」を「爆発」させる方向に動かすことが可能であることが判明しました。
ロボットに害を及ぼすような行動を促す攻撃は、文脈や状況に依存しており、ドメイン固有の判断が必要だとチームは述べています。ただ前に進むような命令も、人間がその道にいれば有害となります。
この研究はプロジェクトウェブサイトやarXivサーバーにあるプレプリント論文、さらにRobeyのブログにて知ることができます。
出典 : Jailbreaking LLM-Powered Robots for Dangerous Actions “Alarmingly Easy,” Researchers Find https://www.hackster.io/news/jailbreaking-llm-powered-robots-for-dangerous-actions-alarmingly-easy-researchers-find-ccdb77deaf66