清华大学智普AI团队推出CogAgent,该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航,采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航以及文本和视觉问答任务上均表现出色。CogAgent的潜在应用包括自动化GUI操作、提供GUI帮助和指导,以及推动新的GUI设计和交互方式。尽管仍在早期开发阶段,但该模型有望在计算机交互方式上带来重大改变。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则