Appleの研究者が、スマホ画面上で起こっていることを理解できるAIモデル「Ferret-UI」を開発しました。
このAIは複数のモードを組み合わせた大規模な言語モデルであり、画面上のアイコンを識別したり、特定のテキストを見つけたり、特定のタスクを達成するための正確な指示を出すことができます。
発表された論文では、モバイルユーザーインターフェイス(UI)を理解し、対話するためにどのように特化されたモデルが設計されたかが詳しく記載されています。
Ferret-UIの利点としては、視覚障害のある人の支援やアプリのテスト、使いやすさの検証などが挙げられます。
Appleはこのプロセスを自動化することで、私たちのスマホとのやり取りがさらに簡単になると考えています。
具体例としては、Appleストア内のAirPodsの写真を見せられ、購入方法を問われた場合、Ferret-UIは「購入」ボタンをタップするよう回答します。
この技術が将来的に、噂される「Siri 2.0」の一部になるのか、単なる研究プロジェクトに留まるのかはまだわかっていませんが、スマホ体験を一新する可能性を秘めています。
出典 : https://www.tomsguide.com/ai/apple-just-unveiled-new-ferret-ui-llm-this-ai-can-read-your-iphone-screen