OpenAI发布的智能体开发包里提到一个特性叫Computer Use,让AI完全帮你操作电脑,所有那些重复枯燥又容易出错的工作,它都能帮你做了,这是非常让人兴奋的前景。

Computer Use其实是RPA(流程自动化)技术在个人电脑桌面操作场景的细分方案,在新一代人工智能技术的加持下,流程自动化助手RPA焕发新生啦!

RPA是将业务流程自动化的方式,即用软件编写工作流将多个独立流程串起来,不再需要人在中间做流转等简单重复工作。

基础大模型公司基于“建立行业标准”以增加竞争力的意图,把RPA替代人的手动操作的自动操作图形界面软件的细分领域应用起了个新名字——Computer Use,以争取更广泛的关注。

RPA重要的几次改进

没有经过特别详细的考证,以我个人观察看,RPA有这几次技术范式的发展变化:

第一波

第一波技术是录制人类键盘和鼠标的操作然后完整准确的回放这些键鼠事件,实现替人类按预设的逻辑重复操作,缺点是一旦任何界面条件变化,如窗口移动和控件变小,回放就失效,适应力差。其中做的好的产品能通过操作系统提供的窗口和控件句柄,更有适应力地识别和操控界面。

第二波

第二波是通过破解软件内部逻辑或通讯协议,编写一个新程序实现协议来模拟官方软件的行为,一个程序一台电脑就能上规模的操控大量App或账号做违法行为或跟流量平台博弈,这种行为是违反使用协议和有关法律的,但因为性价比高也能在暗处生存。

第三波

第三波就是带有视觉能力的大模型能实时看到人眼看到的交互界面,结合理解你的操控意图的提示词等上下文知识,完全自主做出控制电脑做出移动鼠标和敲下按键的动作,完成预定任务,并具有非常强的对变化的适应力,这就是Computer Use。

Computer Use的本质

其本质就是“自动化测试”的旧瓶装了大模型的新酒。

我尽量简单介绍一下自动化测试: 一个复杂软件通常需经过这些流程:需求分析、产品定义、界面和交互设计、架构设计、编码和调试、质量保障、部署或发行。其中质量保障的方式就是通过测试,从早期从人类手工测试逐渐发展到程序帮助测试,都要编写测试用例,尽量全面覆盖代码逻辑。 涉及到界面的测试就更麻烦,点击哪里、输入什么都要事先设计,还有各种分支情况和异常情况,劳心劳力,而且每次代码有修改,为了不出现“堵这边漏那边”必须经常进行软件整体逻辑测试。现在发展多年的“基于界面的自动化测试”技术已经被互联网公司、软件公司广泛使用,成熟到已经可以做到持续集成(CI)和持续部署(DI),从程序员提交代码后测试和上线一套流程全自动完成。

这些积累正好被Computer Use给用上,甚至不带视觉能力的纯语言模型都能在这套体系支撑下做到通过AI Agent(智能体技术)的加持把一系列操作搞定,更强大的一点是还可以判断不同情况做不同处理,甚至人事先都没想到的异常情况。

发展面临的问题

安全性

安全性是第一要考虑的问题,让别人的程序随便操作自己的电脑是危险的,Computer Use这个范式大概率不会被杀毒软件认为是病毒。好在中间我们还有探索空间,首先出现的是Browser Use,也就是AI控制浏览器,浏览器自带安全沙盒,能防止网站开发者恶意操作本机文件,已经能帮我们做很多事情了。 但我们理想中的Computer Use既然能替人操作电脑就是要给到最高权限,这非常危险,所以一方面在协议的设计上要求应用开发者严格遵守,交互流程上也充分透明,每走一步都让用户做批准。

Computer Use这个名字最早由对手公司Anthropic在2024年10月份提出来,并且在Claude 3.5中开始支持,然后开源社区迅速跟进,诞生了Browser-Use和Agent.exe等项目,已经充分把这项技术的前景展示在人们面前。但商业公司面临的顾虑较多,必须在公众安全角度做充分评估,一步步往前走,观察社会的反应。

使用成本

另外,模型智力方面已经及格,将来会更聪明好用,就是眼前不够便宜,使用智能体方法一次任务就会拆分成十几次甚至几百次请求,花token巨快。贵,自然成为一种筛选机制,能帮助用户赚钱的应用算账后就能用起来。

参考链接(按发表时间排序)

  1. 维基百科条目-RPA
  2. Anthropic发布于2024年10月的文章Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 HaikuDeveloping a computer use model 率先拿到命名权。
  3. 开源社区积极尝试的项目browser-useAgent.exe 比较激进的尝试让AI控制电脑。
  4. OpenAI发表于2025年3月的文章New tools for building agents 里推出了Computer Use预览版,但只对于月付200美金的用户开放测试。