Appleが新たに開発したマルチモーダル言語モデル「Ferret-UI」は、iPhoneアプリの画面を正確に認識する能力を持っています。
これにより、Siriがアプリの操作を理解し、サポートすることが可能になるかもしれません。
Ferret-UIは、縦長のスマートフォン画面や小さなUI要素も詳細に捉える技術を用いており、アイコン認識やテキスト検索などのトレーニングを行っています。
この進歩により、視覚障害を持つユーザーでもスマートフォンをより快適に使えるようになると期待されます。
また、アプリのUI設計をAIがチェックすることで、使いやすさの向上にも寄与するかもしれません。
Siriと組み合わせた新たなサービスや自動化の展開が楽しみです。
出典 : https://gigazine.net/news/20240410-ferret-ui-apple-multimodal-llm/