米Appleの研究者チームが開発した「Ferret-UI」は、iPhoneやAndroidのモバイルUIを深く理解し、様々なタスクをこなすことができる技術です。
画面を点で指したり、ボックスで囲んだりするなど、多彩な入力でウィジェットの分類や文字認識が可能であり、スクリーン上の様々な要素を探したり、スクリーンショットを詳しく説明したりさえできます。
その上、AI技術「Ferret」を基に進化させ、特に画面の小さいオブジェクトにフォーカスしたデザインが特徴です。「any-resolution」技術により細部まで鮮明に捉えることが可能になりました。
基本的なUI操作から高度な機能推論までを学習し、詳細な説明や対話を行うことで、モバイル画面の全体的な機能を理解できるようになります。
Ferret-UIは、他の大規模モデルと比較して優れた性能を示し、将来的なモバイルUIの理解を大きく進展させているのです。
出典 : https://www.itmedia.co.jp/aiplus/articles/2404/12/news040.html