MITの研究者たちは、視覴覚データに頼らず、言語に基づく指示を使ってロボットを誘導するAIシステムの開発に成功しました。この方法では、ロボットの視点からの視覚情報をテキストのキャプションに変換し、言語モデルがロボットの動きを指示します。
完全な視覚データが不足している場合に有効であり、視覚情報と組み合わせることで性能を向上させることができます。生成されたキャプションはロボットが理解しやすく、失敗した際の原因分析もしやすいです。
このアプローチは、少ないデータでの学習が可能であり、特に環境シミュレーションと実世界とのギャップを埋めるのに有効です。たとえ画像データでの深度情報が失われがちでも、言説の補完により高いレベルの情報を捉えることが期待されます。
研究者たちは、言語モデルが空間認識をどのように展開していくか、また、それが言語ベースのナビゲーションにどう役立つか検証を進めています。この進歩は、将来のロボット技術とAIの可能性を示唆しており、その研究成果は、学術会議で発表されます。
出典 : https://neurosciencenews.com/ai-llm-robot-navigation-26324/