微软近日推出了其 Windows 操作大模型 OmniParser 的升级版本——OmniParser-v2.0。该模型能够识别桌面和窗口元素,并与之进行交互,标志着 AI Agent 技术在实现完全自动使用电脑的方向上又迈进了一步。
OmniParser-v2.0 的关键能力在于其对桌面环境的感知和交互能力。这意味着,通过与该模型的结合,AI Agent 不仅能理解用户的指令,还能直接在 Windows 操作系统层面上执行操作,例如打开特定窗口、定位并点击按钮、输入文本等。
值得注意的是,OmniParser-v2.0 可以接入如 DeepSeek-R1等其他模型。这种可扩展性为构建更强大、更灵活的 AI Agent 提供了可能。
业内人士指出,随着 OmniParser-v2.0 等工具的出现,AI Agent 的下游工具链正在日益完善。从操作浏览器到操作操作系统,AI Agent 的能力范围不断扩大,预示着未来 AI 在自动化办公、个人助理等领域将发挥更大的作用。 我们正逐步接近一个由 AI 驱动的、更加智能和高效的计算时代。
地址
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则