摘要:AI 和Agent的思想同时代诞生,但分别解决不同的问题。1950年,图灵测试被提出时,图灵也展望了机器在纯智力领域与人类相媲美的两种可能:一种是让机器去学习,如同儿童学习一般,能逐渐理解、命名事物,像过去的深度学习神经网络,及发展至今的GPT、Qwen等大模
一、Agent的三重认识:与AI相生、与应用相伴、与商业相契
(一)AI与Agent相伴而生,每一次AI的突破都会带来Agent的蜕变
AI 和Agent的思想同时代诞生,但分别解决不同的问题。1950年,图灵测试被提出时,图灵也展望了机器在纯智力领域与人类相媲美的两种可能:一种是让机器去学习,如同儿童学习一般,能逐渐理解、命名事物,像过去的深度学习神经网络,及发展至今的GPT、Qwen等大模型(LLM);另一种是让机器去行动,完成各类抽象任务,而非执行具体流程,例如深蓝的任务是击败国际象棋冠军,而不是在终局中移动它的骑士棋子到e6格。这也说明了智能体(Agent)特征:具备感知、理解和行动能力。[1]
Agent有着很长的过去,却只有很短的历史。从图灵的设想算起,智能体有着长达70多年的过去。1995年一篇名为“Intelligent Agent:Theory and Practice”论文发表后,[2]Agent一词开始盛行。但等到2012年深度学习模型在人工智能领域大显身手后,Siri、天猫精灵等虚拟助手问世,初步具备感知、决策和执行的能力,Agent的历史才真正开启。
人工智能的每一次突破,都伴随着智能体的蜕变,在大语言模型取得突破之后:从横向看,Agent会再次拓展“开发者”边界。2023年11月,OpenAI在推出GPTs功能后,一个月涌现了7万多个Agent(例如,创意写作、数据分析等),这些Agent的开发者大多数是不懂软件开发的普通人。从纵深看,Agent会再次加速数字世界和物理世界的融合。Agent就像市场经济的“专业承包商”,它理解用户的复杂意图,再组织实施流程、调用数字程序或者物理工具,向用户交付最终结果。这里也可以看出新一代Agent与传统聊天机器人(Chatbots)的差别:Chatbot扮演庄园经济的“佃农”,能执行既定流程,但不能分解任务,也不能验证执行结果。二者有 “质”的差别,而非简单功能升级。
目前,对Agent的想象没有看到止境。如果把大模型想象成一个核心控制器(Core Controller),可能驱动一个由Agent组成的系统。23年,OpenAI工程师Lilian Weng就已提出Agent系统概述(见下图),[3]在AutoGPT、GPT-Engineer等场景完成部分概念的验证。进入24年,针对不同场景,Agent开发架构也在增多(见下表)。这些尝试,都会成为Agent在大模型时代蜕变的里程碑。
图:LLM驱动的Agent系统概述
(二)Agent是改变应用形态的一次新机遇
目前,Agent已是大模型应用的重要风口,吴恩达教授甚至将之称为“最重要的AI技术”。但风从哪里吹来,却未形成共识。不少专家,将Agent的落地,比作移动互联网时代的APP,会吹来流量的“新风”。我们认为这一观点,对Agent既是高看、也是低估:
一方面是高估了Agent的现有落地基础。把Agent看成APP,首先意味着Agent被视为一种服务,其运行需要比Chatbot更为复杂的状态管理工具和执行工具,也需要更强的任务理解和任务编排能力。过去,Chatbot与其调用工具多处于同一个运行环境和编排任务流程,类似于蜂群、蚁群之间的同种族合作,但Agent调用的工具多处在不同的运行环境,例如,“点外卖”Agent就需要读取和调用饿了么、美团的状态信息和任务工具,其相当于要猴子指挥豹子和羚羊协作。Agent与Chatbot任务编排的难度差距,堪比“从沙子变为芯片”。据最新研究,[4]Agent在模拟真实工作的环境中,大约24%的简单任务可以由具有竞争力的Agent自主完成,短期内很难胜任更复杂的任务。现有工具的元数据和状态信息更多向Agent开放,将会缩减这一演进的历程。
另一方面是低估了Agent重塑现有应用形态的可能。从短期看,Agent可以弥补模型在执行具体功能上的不足,通过调用既有的插件和应用模块,并以RAG等方式补强实时信息、专业知识,给大模型在现有工作流的渗透起到“扶上马再送一程”的作用。从长期看,Agent是一个“锚点”:向上锚定用户需求,向下锚定具备原子功能的接口,横向锚定与自己模型和应用相适配的工具链。
同时锚定三者,让Agent具备成为一个新型应用生态入口的潜质:用户还需要打开Google么?Agent可以聚合多个门户的信息,替代搜索阅读的过程,直接给出用户问题的最终答案。用户还需要自己选择软件么?Agent可以替代用户选择是用WPS还是office文档,甚至直接提供编辑工具。用户还需要应用商店么?Agent可以更好地聚合开发者和定义编排逻辑和接口标准。形势比人强。这使得谷歌、OpenAI等头部模型大厂不得不自研Agent,显示模型能力、并聚拢新的生态力量。这也使得Apple、腾讯这样的移动互联网生态入口高度关注新业态的产生和对用户心智、使用习惯的影响。这还使得原先按照功能划分的App和软件,重新思考自己的生态定位和功能设计:更好地被Agent调用,还是自己向前变成Agent?
Apple Intelligence已经开始行动。其能无缝调用各类系统工具,又因iOS封闭的应用生态,调用主流App接口难度也较安卓系统更小,如果再具备个人化、情感化的交互入口,将很有可能在超级硬件之上,带来应用入口的变迁,将Apple Intelligence打造为超级“Agent”,成为更上位的应用生态,最终各类App服务“原子化”。
新型入口在面对既有的竞争法律,如欧盟的《数字市场法案》(Digital Markets Act, DMA),不可避免地将引发合规争议。按照DMA要求,苹果作为“守门人”企业,应该允许第三方智能体(Agent)访问诸如Siri语音命令和支付芯片等关键功能,这可能会影响苹果的生态地位,也会影响其隐私与安全机制。为此,苹果不得不推迟Apple Intelligence在欧盟地区上线。
(三)Agent规模化应用将会带来大模型商业化的一个拐点
大模型的应用,带来了数据(文字、图片、视频等)计量单位的首次统一“Token”,一如20世界中期,电力国际计量单位“度”(千瓦时)的出现。大模型在发展之初,就以一种近似基础设施的商业模式在运营,也让业界也在高度关注类似“电灯”杀手级应用出现。
很难预估2025年会否出现Agent领域的杀手级应用,但可以清晰看到,Agent与大模型的商业化天然契合。现阶段,大模型收费是成本计价——按Token调用计费。这是一种“现实”的定价模式:模型应用的早期用户使用习惯不确认,按订阅费模式定价可能用户用得越多,厂商亏损越大,早期的某工具软件copilot采用“包月费”就陷入了这样的困境;模型应用给用户带来的最终价值不确定,就不能根据效果定价求溢价:Token计费是一种“实报实销”的朴素市场策略,本质上是给算力厂商做转售。而Agent是接受用户任务,分解再执行若干步骤,对最终效果负责,这支持模型和应用从成本定价转向了市场定价,模型的智力越强,应用价值越大,利润空间就越大。2024年,部分企业开始改为按Agent每次服务2美元进行收费,本质是Agent拉动模型和应用的计费从算力到“智力”迁移,以Agent为锚,大模型调用成本与经济产出的重新“耦合”。
二、Agent三点展望:与模型相促、与场景相合、与人性相亲
展望2025年,Agent具备“再上台阶”的潜力和势能,但更多依然是“厚积”的阶段。相较于在Agent领域涌现杀手级应用,我们更期待:随着模型推理能力的提升,Agent的工程能力进一步革新,把特定场景的应用“吃穿吃透”,做到真正“代理”而不仅仅是搭理,并与陪伴型AI合流,逐渐强化用户意图理解和交互界面,为真正的“薄发”做好准备。
(一)从知到行:模型推理能力将成为Agent应用的关键
目前看, Agent应用的动力来自于三组不等式:(1)同一场景下,应用大模型的效率,要明显大于现有系统;(2)同一流程下,Agent部署的效果,要明显高于直接调用大模型;(3)同等算力下,Agent部署的成本和工程量,要优于大模型的微调(如SFT)。而模型推理能力越强,Agent能执行流程则越长、推理时间越短、反应速度越快,以上不等式的验证成果也越好。
Agent与推理模型会处在“边跑边升级”的共生状态。在大模型侧,其能力在相当长时间内都有提升,Agent会扮演弥补模型能力缺陷的角色,例如,通过“外挂”知识库进行检索增强生成(RAG),Agent可以弥补大模型的专业知识盲点。在Agent侧,随着模型的多模态和逻辑推理能力,正以“每半年提升一倍”的速度持续增长,[5]Agent的能力阈值在不断被打开。以阿里跨境电商为例,升级后Agent可以独立完成拒付抗辩(商家已发货、消费者拒绝付款),在几分钟整理好资料、证据,自动生成抗辩信,发送给海外信用卡机构,解商家的眉头急、心头痛。
要从“共生”走向“共荣”,部署Agent的工程化能力是一大挑战。人们想象,未来Agent会通过团体协作获得群体智能,数以千万的Agent经过协同,最终解决复杂问题。2024年10月,微软在开放Copilot Studio使用后,微软副总裁Charles谈到,有10万个组织开始尝试进行Agent的创建和代理,其中少数组织已经尝试通过Agent来进行Agent之间的简单访问对话。但Agent作为“经纪人”实现众多模型和Agent之间的调度,其技术栈仍然处于非常早期的阶段。展望2025年,我们期待首先看到数百个Agent串行与并行,处理更复杂的任务调度、完成更抽象的用户目标。
(二)从量到质:Agent与应用场景的结合深度将成胜负手
Agent要以服务次数/服务效果进行计费,取决于它能否在具体应用场景里内产生可度量的经济效用。根据我们调研的阿里外部企业,模型应用分布已经从初期的信息挖掘、内容创造,已经逐步过渡到了意图实现,并随着模型的推理能力增强和多模态交互进步,驶入了极速发展的快车道。
而在阿里内部的电商场景可以看到更具体的进展:闲鱼推出的智能托售Agent可以实现商品的销售托管。绝大部分个人卖家,都不会24小时盯着消费者的询价信息,导致很多交易机会在错配的时空中流失。但Agent托管代销在试点阶段就取得很好成效:A/B Test动销率有100%+的提升,Agent也有望在帮助个人卖家拿下更高售价后得到“分成”,Agent在场景中根据效果计费的路径初步成型,也就有机会带动应用生态去丰富Agent所需的各种“原子能力”。 展望2025年,Agent有望从技术驱动,转化为有场景有实效的市场驱动。
(三)从里及表:Agent与陪伴型AI(Companion)将汇流,带来软硬件整体升级
风起于青萍之末。Windows诞生后,把用户交互从命令行推向图形界面,键盘加上了鼠标,催生了现全球年营收规模超10万亿的软件服务业;iPhone诞生后,在图形交互的基础上又增添了触控,全屏触摸代替了键盘,催生了APP等移动互联网服务市场,改变了47亿人的生活。Agent走在用户交互的下一个十字路口。自然语言交流是大模型人机交互的最大特点,但要依靠各类形式的自然语言交流,精准的用户意图理解,友好交互界面都不可或缺。
目前在大模型各类应用中,陪伴型AI(Companion)用户交互界面以“人形+语音”的形式,极短时间内形成高用户粘性,据24年11月中下旬监测,国内猫箱、星野等陪伴型AI,周均使用次数稳定在40次以上,以猫箱为例,日均使用时长112分钟(相当于抖音、快手的平均使用时长)是通用性APP 20倍以上。这里有AI领域的Cosplay,或者满足情感需要的“擦边”尝试,但我们需要认识到陪伴型AI的高用户粘性本质是展现人类对个人化、情感化交互的UI需求,其一旦与Agent复杂意图理解和复杂任务执行的能力相结合,会对当前的工具软硬件带来新的跃迁。
可以预见,Agent能实现越来越多的任务。2024年,一家名为Expo的智能体公司,在短短数月开发一款Agent,会在网站提供者的许可下进入并攻击一个网站,找到漏洞,并将结果报告给用户,表明已完成整个任务。迈入2025年,单个智能体会转向智能体的群体协作,它们彼此协作、对抗以达成某种目标。智能手机等端侧Agent,即是智能体群体协作的有效载体,也可能成为Agent与陪伴型AI的第一个交汇点。国内不少企业也在进行相应探索。众多安卓终端调用通义大模型,上线“一键问屏”功能,深度理解屏幕内图文信息,进行图片识别、信息查询、APP调用,也在尝试更人性化、情感化的交互。展望2025年,我们也期待,在电脑、家电、手机、汽车、机器人等终端设备,看到更多喜闻乐见的Agent应用起来。
三、启示与建议:我国Agent发展的“喜与忧”
(一)一喜:Agent是模型落地抓手,国内高度关注、蓄势待发
Agent是大模型的生产力释放的载体。面对这一机遇,我国已成为全球Agent关注度最高的国家。据谷歌全球网页搜索热度分析,中国是Agent搜索热度高于美国、欧洲、新加坡、日本、韩国等,其中,智能体之间的群体协作、编程语言是国内开发者关注的重点。值得一提,杭州、北京、深圳、上海是全球搜索Agent热度最高四个城市,甚至高于硅谷的聚集地旧金山(位列第五)。
生成式AI诞生以来,有一个基于移动互联网历史的惯性判断,我国的丰富场景会是产业优势,弥补在算力的限制和算法的不足。但从目前的观察来看,应用场景并不能直接反哺模型能力:大模型时代不存在“数据飞轮”(详见:《大模型时代:消失的数据飞轮》),应用数据的积累,既不能直接带动模型能力的“自我驱动”,更不能实时调整模型的参数。应用场景与大模型发展之间,需要一座新的桥梁。Agent可以打通 “模型能力提升→Agent应用发展→经济效益产出”的正向反馈,最终反哺模型能力迭代和升级。Agent目前,国内外各界对于Agent的应用价值已有愈发清晰的认知,但产业政策如何跟进、投资基金、消费补贴如何协同结合,Agent相关人才如何“引育留”,都还需要探讨斟酌。
(二)一忧:Agent提出数据安全新命题,治理亟待新思路
对于大多数普通用户来说,Agent是如何使用他们提供的数据,就像是一个难以理解的“黑箱”:不透明性导致了信息不对称的问题,让用户担心自己的私密信息可能会在未经授权的情况下被用于模型训练,甚至可能通过这些模型泄露出去。
在Agent场景,模型需要汇聚用户在多个三方APP和工具的数据,例如利用模型完成旅游行程规划任务,需要获取在交通、餐饮、住宿APP 中的用户数据,向模型汇聚的过程中涉及个人数据的跨主体转移。按照个信保护要求,数据使用需要Agent用户授权,数据采集需要“目的限定和最小够用”。但Agent很难确认单一“目的”,用户也难以接受使用Agent过程中的频繁征求同意。而多方数据汇聚后,各方问题溯源和权责切分也是挑战Agent。总体看,事前过严的数据使用会限制以Agent为代表的复杂应用服务,走向事中事后的追责机制,是应对安全挑战的新解法。进一步明确数据上云、模型用数和Agent用数的安全治理框架,保障各方合法权益,才能消除用户的隐私顾虑,帮助模型通用能力深入应用场景。
来源:同行者