今年5月、OpenAI社は新たな大規模言語モデル「GPT-4o」を発表しました。このモデルは、従来のAIの限界を超え、リアルタイムのインタラクションが可能で、人の行動を把握する能力を備えています。
日本の国立情報学研究所のチームは、ドローンが撮影した映像を解析し人間の行動を認識する実験を行いました。これは、従来の手法と異なり、大規模なデータセットや時間を要する注釈付けなしに実現可能です。
YOLO-WorldとGPT-4Vという2種類のモデルを使った実験では、人物の行動認識はまだ完璧ではないものの、災害救助や畜産管理など幅広い応用が期待されています。研究者らは、精度の向上を目指し研究を続けており、将来的にはChatGPTと同等の知性を持つドローンが登場するかもしれません。
出典 : https://www.drone.jp/column/2024061110061190497.html