アリゾナ北部のトレイルカメラで得た約100万枚の野生動物の写真の中から、実際に動物が写っている貴重な1%未満の画像を見つけ出し、識別するという挑戦をしていました。
多くの写真は動いている植物や天候などによって誤って撮影されたものでしたが、YoLov8とGPT-4-Visionを活用してこの問題に取り組むことで、OpenAIの使用料を削減し、大量の画像から動物を正確に識別するシステムを構築しました。
このシステムではまずYoLov8で動物と思しきオブジェクトを検出し、SAM(Segment Anything Model)を用いて画像の特定の部分をマスキングします。
その後、OpenAIのビジョンモデルを使用して動物の正式な名前を識別します。
この多段階のモデルを使ったアプローチにより、コストを劇的に削減することが可能になりました。
また、GPT-4-Visionを使用する上での注意点や、カメラの位置や角度、速度制限などの課題も取り上げています。
このテクノロジーの組み合わせは、カメラが撮影した大量の画像から貴重な動物の画像を効率よく抽出する新しい手法と言えるでしょう。
出典 : https://medium.com/@jones.steveg/using-gpt-4-vision-and-yolov8-to-identify-animals-efficiently-without-additional-training-0db363bd8d68