微软发布了 OmniParser V2.0,这是一个视觉 Agent 解析框架,能将 DeepSeek-R1、GPT-4o 等模型转化为 AI Agent。与 V1 相比,V2 在检测小 UI 元素时准确率更高、推理速度更快,延迟降低 60%。在 ScreenSpot Pro 基准测试中,V2+GPT-4o 的准确率大幅提升至 39.6%。同时,微软还开源了 omnitool,一个基于 Docker 的 Windows 系统,用于屏幕理解、定位、动作规划和执行等功能,是将大模型转化为 Agent 的关键工具。