AI Agent(智能体)概念近日在国内资本市场大火。
10 月 25 日,智谱推出自主智能体AutoGLM,可以通过模拟用户使用手机界面的过程,代替用户在手机应用程序以及网页上进行各种操作。包括可根据用户给出的指令完成购物、进入应用程序完成文字填充、总结等操作,目前内测的效果表现较好,多家券商对其“接管手机”的能力评价颇高。
受此消息影响,“智谱概念股”出现大涨。其中电广传媒(000917)4连板,豆神教育(300010)、思美传媒(002712)3连板,正和生态(605069)、中科金财(002657)、因赛集团(300781)等纷纷高开。据《财中社》不完全统计,10月28日到30日有超过20支智谱概念相关个股出现上涨。
资本市场的迅速响应,反映了对AI Agent商业化前景的期待。而下一代终端产品和AI助理形态在产业端的每一步推进,都可能引发资本市场的涟漪乃至狂欢。
AI Agent(AI 智能体),也被称为“AI 代理”,指能够自主执行特定任务的AI程序或系统。
它们能像人类一样进行逻辑推理,作出决策,并在无人监督的情况下采取行动,完成各类任务。从落地硬件上来看,可以分为“Computer Use”(计算机使用)和“Phone Use”(手机使用)两部分,不同厂商会依据自身能力和生态进行App调用或者全系统接管。
智谱AutoGLM将重点落在了手机场景中。通过OCR(光学字符识别)技术理解UI(用户界面)组件,以及通过链式思维训练理解组件功能,AutoGLM能够识别用户手机屏幕上的不同组件,理解其功能,从而按指令执行,如自动化微信互动和电商下单等操作。
智谱方面介绍称,理论上,AutoGLM可以完成人类在电子设备上可以做的任何事,不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,其操作逻辑与人类类似。目前,AutoGLM已可执行微信、淘宝、美团、小红书等App用户的常用操作,更多个性化操作尚未实现,也尚未适配滴滴、京东、拼多多等App。
值得注意的是,AutoGLM的实现方式是通过读取用户在手机上的 UI 界面,直接模拟用户点击进行操作,要求用户给予 APP“无障碍”级别的高敏感操作权限实现对手机界面的接管,目前仅适用于安卓这一开放度更高的操作系统。
从最终实现来看, AutoGLM 并未在底层操作系统上直接调用相关应用程序,而是绕过操作系统环节,直接从用户 UI 界面进行模拟用户使用来完成,最终与从底层操作系统开始打通应用的路径有所不同,未来仍有迭代进步空间。
事实上,想要“接管手机”的并不只有智谱一家,智谱也非第一个想要成为“人类代理”的厂商。
上周,Anthropic重磅推出“Computer use”功能,Claude 3.5可以自主看屏幕操作光标完成复杂任务实现AI接管人类电脑。智谱正是国内Anthropic最重要的追随者之一。
此外,OpenAI预计年底将推出自己的AI Agent软件Orion,而苹果也将于下月在iOS 18.1中加入Apple Intelligence。微软团队悄悄放出的OmniParser,也在笃定AI智能体操控屏幕的未来。OmniParser主要是一个屏幕解析的工具,可以将截图转化为结构化数据,帮助AI精准理解用户意图。
在国内,多家手机厂商和互联网大厂都在探索这一领域,如阿里的MobileAgent、腾讯的AppAgent、荣耀的MagicOS 9.0操作系统等。
从科技厂商们频繁的动作来看,AI Agent已经成为大模型领域的重要战场。
《财中社》发现,主要竞争分为三类:
自身拥有手机硬件以及操作系统的厂商,例如苹果、小米等,拥有出色的禀赋,但大模型能力略有不足;
拥有操作系统/App应用生态的互联网巨头,包括谷歌、META、腾讯等,拥有应用矩阵/操作系统等,且代表厂商谷歌、META 等具备较强大模型能力,拥有开发 AI Agent 的潜力;
AI 大模型厂商,包括OpenAI、 Anthropic、智谱等,拥有较强的 AI 大模型能力,但难度在于实现各个 APP 之间的打通。
AI Agent是大模型应用的主要形式之一,电脑、智能手机下一代产品搭载AI已经是业内共识。咨询机构IDC预计,2027年,中国市场AI手机和AI PC的市占率将分别超过50%、80%。开源证券认为,智谱AutoGLM大幅提高AI Agent 的实用性,或推动AI Agent 用户渗透率及商业化空间打开。
值得注意的是,AI Agent的应用范围仍然有限,要想彻底打入主流市场,在跨平台/APP操作能力、个性化体验、隐私和数据安全等方面,要啃的硬骨头还很多。