革新的なGUIオートメーションツール「OmniParser」の進化と安全対策

2025.02.15

WorkWonders

グラフィックユーザーインターフェイス(GUI)の自動化は、スクリーンと対話する能力を持つエージェントを必要としています。OmniParserはUIスクリーンショットをピクセル空間からLLM(大規模言語モデル)が解釈可能な構造化された要素に「トークン化」することで、このギャップを埋めます。

これにより、LLMは解析された操作可能な要素のセットを元に、次のアクションを予測することが可能になります。OmniParser V2は、さらに進化し、より小さな操作要素をより正確に検出し、処理速度も向上させています。特に、高解像度のスクリーンや小さなターゲットアイコンを持つ最新のベンチマークにおいて、最先端の平均精度39.6を達成しました。

また、マイクロソフトのAI原則と責任あるAI実践に沿って、OmniParserのアイコンキャプションモデルは、個人の繊細な属性(人種、宗教など)を特定することを避けるために、責任あるAIデータでトレーニングされています。実験をさらに速く進めるために、OmniToolという環境も用意されており、エージェントに必要なツール一式が含まれるdocker化されたWindowsシステムです。教師あり学習によってリスクを最小限に抑えることが推奨されています。

出典 : OmniParser V2: Turning Any LLM into a Computer Use Agent https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

【このニュース記事は生成AIを利用し、世界のAI関連ニュースをキュレーションしています】

【お知らせ】
弊社ワークワンダース社主催ウェビナーのご案内です。


<2025年1月21日実施セミナー>

生産性を爆上げする、「生成AI導入」と「AI人材育成」のコツ


【内容】
1. 生産性を爆上げするAI活用術(安達裕哉:ワークワンダース株式会社 代表取締役CEO)
2. 成功事例の紹介:他業種からAI人材への転身(梅田悟司:ワークワンダース株式会社CPO)
3. 生成AI導入推進・人材育成プログラム「Q&Ai」の全貌(元田宇亮:生成AI研修プログラム「Q&Ai」事業責任者)
4. 質疑応答



日時:
2025/1/21(火) 16:00-17:30

参加費:無料  
Zoomビデオ会議(ログイン不要)を介してストリーミング配信となります。



お申込み・詳細 こちらウェビナーお申込みページをご覧ください

(2024/12/11更新)