グラフィックユーザーインターフェイス(GUI)の自動化は、スクリーンと対話する能力を持つエージェントを必要としています。OmniParserはUIスクリーンショットをピクセル空間からLLM(大規模言語モデル)が解釈可能な構造化された要素に「トークン化」することで、このギャップを埋めます。
これにより、LLMは解析された操作可能な要素のセットを元に、次のアクションを予測することが可能になります。OmniParser V2は、さらに進化し、より小さな操作要素をより正確に検出し、処理速度も向上させています。特に、高解像度のスクリーンや小さなターゲットアイコンを持つ最新のベンチマークにおいて、最先端の平均精度39.6を達成しました。
また、マイクロソフトのAI原則と責任あるAI実践に沿って、OmniParserのアイコンキャプションモデルは、個人の繊細な属性(人種、宗教など)を特定することを避けるために、責任あるAIデータでトレーニングされています。実験をさらに速く進めるために、OmniToolという環境も用意されており、エージェントに必要なツール一式が含まれるdocker化されたWindowsシステムです。教師あり学習によってリスクを最小限に抑えることが推奨されています。
出典 : OmniParser V2: Turning Any LLM into a Computer Use Agent https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/