Agent不会在2025爆发

360影视 国产动漫 2025-04-07 16:15 1

摘要:大模型已经在聚光灯下狂奔了28个月,时至今日,Agent已经被成为了包括黄仁勋、奥特曼、李彦宏、周鸿祎、吴泳铭等一众科技大佬在内备受期待的2025爆发品。

大模型已经在聚光灯下狂奔了28个月,时至今日,Agent已经被成为了包括黄仁勋、奥特曼、李彦宏、周鸿祎、吴泳铭等一众科技大佬在内备受期待的2025爆发品。

可正如不久前“朱啸虎不太看好机器人赛道”一般,Agent赛道同样也存在着一场泡沫之下的非共识。

我们先从企业内部的Agent来看下。

进入去年下半年以来,大洋两岸的软件巨头对AI Agent的投入越发显得激进。2024年9月,全球SaaS巨头Salesforce发布了“数字员工平台”Agentforce,创始人Benioff异常激进地押注Agent,甚至对销售团队下达了“死命令”:销售人员必须在每一笔订单中将Agentforce打包卖给客户。12月,Benioff更是扬言要再招2000名销售为这款产品继续拓宽市场。

微软紧随其后,首席执行官Nadella在去年10月一口气发布了10款Agent,用于企业销售、运营和服务,加剧了SaaS行业的Agent之争。副总裁Bryan当时更是表示:这些Agent可以被视为AI时代真正的应用程序。

像Salesforce和微软的巨头对Agent的态度尚且如此,更不用说寻求转型突破的中小企业。

但投入是一回事,市场买不买单则是另外一回事。据一些已经测试过Agentforce的客户反馈,目前依旧没有大规模使用该技术,原因在于这款产品还不够成熟,尚存在准确性等问题。另一位客户则表示,对于任何一款新软件,他们通常需要12到18个月才能从试用过渡到在关键业务系统中运行。

此外,抛却客户因为性能问题而导致的冷淡态度不说,事实上老板本身为Agent付费的意愿也要打一个大大的问号。如今的Agent很难直接减少人工,更多还是为个人生产力服务的,但付费的却成了企业决策者,让老板为员工购买生产力这件事本身就像是个悖论。

在收费这一点上,国内的钉钉则比较克制,虽然开放了Agent功能的产品,但依旧供企业免费使用。

B端Agent难以破圈,那么C端的呢?的确近两年有不少出圈的C端或D端(developer)的Agent应用,Manus和Devin都在此列。不过可惜的是,短期爆火之后很快就消失在大众视野之外。

在外界看来,Devin和Manus的市场教育意义更大些。Devin带火了AI编程赛道,而Manus则证明了一种通用Agent实现的方式:多Agent模式,同时让Anthropic去年提出的用于AI应用开发的模型上下文协议MCP再次出圈。

几天前,51CTO采访了多位在负责AI产品开发的一线负责人,他们更多还是把目光投向了大模型厂商内部推出的Agent。在他们看来,OpenAI今年年初推出的两款Agent堪称业内样板,更能代表业界Agent发展的现状。这两款分别是Operator,DeepResearch。

这两款分别代表了两个方向——前者代表了Computer use,在自动化、负责真实世界执行,而后者则为Knowledge research打了个好样,旨在智能化、负责异步信息的推理。

这其实也是OpenAI打造Agent的路线图:前者执行、后者思考,结合起来实现 OpenAI 对 Agent 的定位:独立执行复杂任务。

一些圈内创业者、投资人表示,许多Agent不过是公式化套了GPTs的壳,补上了一些交互设计,预设了一些开放接口作为tools。这些看起来像个“产品”,但实际上并不具备真正解决问题的能力。

“现在市面上个人搭建的Agent,或许勉强能用,但能完成任务的复杂度和可控性都极为有限,远不如大模型厂商直接提供的场景化产品好用。”

Agent本身定位是完成复杂任务,但现下看,先从简单场景开始,也是无奈之举。专注于AI应用开发的开源框架提供商LangChain的一份调查报告显示:人们在长耗时任务中对AI Agent有较大需求,但同时,用户对AI Agent普遍存在“完成质量”或“可靠性”方面的担忧,AI Agent在复杂场景中并不一定能够持续保持响应和问题解决路径的准确性,因此有一半以上的受访者在实际使用中会为AI Agent补充跟踪和观察的控件。

上个月 Perplexity 首席执行官 Aravind 在采访中表示:“目前任何人声称 2025 年的Agents可以完全投入使用,都应该持怀疑态度。但我们正在尝试找出一些可以率先落地的简单场景,比如让用户购买商品时无需手动输入信用卡信息和收货地址等。这类简单的工作流程。”

当然Agent不成熟还在于应用控制的生态上并不完善。比如Aravind就指出,目前没有其他方式能让 AI 代理同时控制多个应用,尤其是在 iOS 上,甚至无法访问其他应用,这是苹果生态的限制。而我们不想受制于苹果的规则,所以需要寻找一个变通的方法。在短期内,浏览器是一个非常好的解决方案。

更关键的是,抛却一些营销意味颇重、令人印象深刻的Demo演示,Agent的准确性还远未能适合用于生产环境。

即便强如OpenAI 的 Operator,其计算机使用和网络浏览器的准确性也只达到了30%到50%,但仍然低于人类能力的70%以上。

图源:OpenAI

同样,Claude 的AI代理计算机界面(ACI)的性能仅相当于人类表现的14%。

下面这张来自TheAgentFactory的图表显示了AI Agent在成本、步骤和成功率方面的现状。注意成功率大约只有20%。这些数据是当前情况的严峻现实。

除此之外,在安全性方面也有一些明显的漏洞,比如一些研究表明,Agent在进行网络浏览时容易受到恶意弹窗的攻击等等。

最后就是Agent的开发成本问题。比如:假如市面上一些Agent需要使用操作系统的图形用户界面作为API,这样每个Agent集成的开销太大;又或者在回答复杂问题和从多个文档中综合信息时同样也面临着不小的挑战,这也是OpenAI 将 DeepResearch为什么定价如此昂贵的原因之一。

从上面可以看出,现在Agent依旧处于早期炒作与探索阶段。国内我们看到有一些不错的产品形态,比如阿里推出的夸克“超级框”,阿里智能信息事业群总裁吴嘉表示,“超级框”不是ChatBot或搜索,而是直接交付结果的“超级Agent”——用户在“框”中表达意图,AI会调用工具与方法来帮你写一份工作报告、旅游计划,或是一份就医指南。

不过国内大厂对于Agent的推动显然更为克制。据悉目前夸克方面暂未尝试重投入,因此在Agent模式上,暂时处于阿里自有工具调用的早期形式,未接入增加更多算力耗费与技术复杂性的中间调优与反馈。

再比如,我们了解到字节跳动Dev Infra团队内部已开发出一款功能类似Manus的智能体产品,名为Dev Agent,主要通过集成内网知识库与多种内部工具实现调研、开发、数据分析等任务。不过,Dev Agent是一款实验性质的内部工具,仅面向开发部门内测使用。

而在大模型六小虎中,智谱对于Agent的方面走得更激进一些,积累许多前沿的Agent研究成果。就在刚刚过去的3月底,智谱在中关村论坛上发布了深度研究与操作能力并重的AutoGLM沉思,尤其在浏览器的使用,手机和电脑在内的工具使用能力全面的处于领先地位。

不过,问题的症结在于,Agent能力的提升本身依赖于大模型的进化。Agent的可行领域将会是垂直领域而非通用。

MetaGPT核心贡献者徐宗泽认为通用Agent大概率是一个伪命题。知乎直答产品负责人马奎则在采访中表示「通用模型+专用 Agent」会是更可行的方案。

一位AI Infra创始人认为,Agent目前的瓶颈有三点:一在某些非垂直领域,Agent 的模型本身做得还不够好,对于与物理世界的交互,虽然在分析方面表现还不错,但实际的交互能力还需要进一步提升;其二,算力成本相对较高,这导致有些应用其实很难实现,因为成本核算不过来。第三个问题是不同场景之间的壁垒,主要是数据集的问题。因为本身数据是私有的。只有把这些数据全部打通,才能用 Agent 的方式把它们整合起来,为你提供所需的服务,但这方面客户的意愿度并不高。

不过他同时释放了Agent在局部范围内的乐观信号。首先,在技术可靠性方面,即使在物理世界的交互上表现不够好,或者数学运算还不够精准,但在语言推理方面已经可以做得很好了。它可以辅助一些Action,比如帮你制作 PPT,或者自媒体的内容生成等已经可以落地,这是已经突破的部分。

其次,成本在持下降。DeepSeek的出现让大模型的ROI得到了很大的提升。许多算力公司都在持续对它进行优化,包括内存优化、成本优化、硬件优化、模型优化,让 token 成本持续下降。而且,这些事实上都可以用更低精度或者更便宜的方式去提供解决方案,让产品真正落地,成本核算得过去,就能真正实现应用。

第三,场景方面。不同垂直领域拥有大量私有数据的公司,可以开发出特定领域的语言模型,以及不同领域的Agent。

就如同微软、Salesforce一样,很多企业都认为转型Agent是一个不可逆的趋势,同时Agent也会带来不同的运营和价值创造的方式。

然而,正如前文所说,面对全球数百家声称提供“AI Agent”的供应商,现在无论是在供应侧侧还是使用侧都存在相当程度的炒作。我们需要从长远的角度去看待Agent的演进,它是一场马拉松,而非短跑冲刺。

技术可靠性、研发与使用成本、安全问题、数据隐私等问题都如同这场马拉松上需要攻克的关隘,也不止是“创建一个可自动化的任务列表并测试Agent是否可以完成基准任务”仅此而已,Agent距离创造实际的生产价值,还有很长的路要走。

可喜的是,随着国内外各大科技企业的投入,Agent成熟的路径已然清晰起来:大模型是能力基座,以Operator的执行和以DeepResearch为代表的复杂推理依旧将是今年的主旋律。

来源:51CTO

相关推荐