大模型“吞噬”Agent

360影视 欧美动漫 2025-04-22 18:59 3

摘要:当OpenAI发布了新的o3 模型和 o4-mini 模型之后,一位业内人士有此感慨。行业普遍认为2025年是AI Agent元年时,大模型厂商似乎按捺不住,率先下场成为最大的AI Agent。

作者 | 常棣

编辑 | 葛覃

“OpenAI要把Agent吞进模型里了。”

当OpenAI发布了新的o3 模型和 o4-mini 模型之后,一位业内人士有此感慨。行业普遍认为2025年是AI Agent元年时,大模型厂商似乎按捺不住,率先下场成为最大的AI Agent。

结合行业视角观察,大模型也正在从“对话生成”向“任务执行”跃迁,具备规划、记忆、工具调用等能力,而一些AI Agent厂商所担心的事情已经发生,即大模型本身的进化会吃掉一部分AI Agent的能力,这代表旧的Agent生态被拆解,新的Agent生态正在形成。

大模型内生Agent

无论愿意与否,大模型Agent化的趋势已经袭来。o3 拥有更强的图像分析能力,o4-mini 也首次支持图像输入,两款模型均支持 Responses API 与 Chat Completions API,其中 Responses API 支持与多个工具的无缝集成,还能输出“推理摘要”,这不仅有助于理解模型输出,还能进一步优化工具调用效果。

国内模型也在加码适合Agent化的大模型。与OpenAI发布新模型的同一天,火山引擎总裁谭待表示,Agent智能体应用发展将带动大模型进一步普及。“深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。”

豆包最新的深度思考模型采用MoE架构,总参数为200B,激活参数仅20B,以较小参数实现较好的效果,同时,豆包模型API服务保障高并发延迟低至20毫秒,且具备视觉推理能力,拓展了智能推理的应用边界。

更早之前,阿里云智能集团资深副总裁、公共云事业部总裁刘伟光提到,阿里巴巴开发新的模型最重要的两个方向,一个是Reasoning推理,一个是全模态融合。

“大模型未来一定是向越来越强的推理能力演化,尤其强化学习,不断提升思维链的能力,伴随着模型内生的任务规划、工具使用能力不断增强,大模型会越来越智慧,可以不断思考更难更高问题,完成更复杂任务。”他说。

阿里云此前开源的QwQ-32B推理模型,在小参数模型实现大参数模型的能力,已经应用于风险控制、风险审核等任务,集成了智能体能力之后,对Agent智能体更加友好,而且32B参数模型能够有效降低部署和使用成本,甚至在消费级显卡上也能够部署。

结合行业视角来看,大模型本身正在将Agent能力内生化。刘伟光介绍,第一步,用强化学习进一步提升模型的泛化能力,例如把推理任务拆解成多个子任务,从而提升模型跨领域泛化能力;

第二步,模型自行判断用快思考还是慢思考解决问题,模型该快的时候更快,该慢的时候思考的更深,可以合理使用底层计算资源,降低资源的不必要的消耗;

第三模型具备更强大的任务规划和工具调度能力,并且成为模型自身的原生能力,这些能力纳入到模型本身推理之后,从而加速Agent和AI的落地。

Agent落地,没想象的简单

Manus的火热,一定程度上说明了AI Agent行业的关注度,但是,结合Manus仍以邀请码的形式开放,以及更多面向消费级和企业级的Agent都未广泛普及的现状来看,AI Agent还有不少坎要过。

亚马逊云科技对TechForWhat表示,对比国内外企业做Agent的情况,可以从大语言模型、API和商业形态三个层次上来看。

如果大语言模型能力强的话,可能Agent 之间的交互就会少一些,所以模型能力很关键,各种模型也有不同的特点,比如Claude 3.7 代码能力很好,Amazon Nova的翻译性价比很高,而模型能力目前达到的程度,也会决定Agent构建时的复杂度。

其次,API 其实是下一步Agent 落地很重要的一环,比如亚马逊设计的 API 规范都是开放的,可以供企业参考。

最后,商业形态方面,Agent说到底都只是一个业务软件,只不过交付形态不同,但无论是以软件形式还是服务形式交付,无论是在国内还是国外,亚马逊云科技提供的Marketplace都可以支持。

Manus联合创始人张涛也表示,Agent和传统chatbot的场景不太一样,过去两年多时间,绝大部分大语言模型在不管在Pre-training还是Post-training阶段,所有的训练目标都是面向Chatbot,Chatbot的特点是,模型总是期望在一轮对话里面回答问题。

但是,现实任务很难在一轮对话里面解决问题,甚至可能可能需要50-100轮对话,Manus目前在海外使用的模型还是Claude 3.7 Sonnet,而在国内传出要和阿里云通义千问合作的消息。

谭待也表示,而要做好agent,技术上需要做好三个准备。首先最核心的是要有更强的模型,要做好agent,模型需要有能力做好思考、计划和反思,而且一定得支持多模态。因为真实世界的任务需要耳朵、嘴巴和眼睛来共同完成。

此次是更好的架构和工具,来支持大模型去操作数字和物理世界,构建好OS agent;最后是通过AI云原生,不断降低模型推理的成本和延迟,让应用无障碍。

为此,火山引擎也推出OS Agent解决方案,并演示了由Agent操作浏览器,搜索商品页,实现iPhone比价的任务,甚至由Agent在远程计算机上用剪映进行视频编辑、配乐。

火山引擎的OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,可实现对代码、浏览器、电脑、手机以及其他Agent的操作。好的模型和工具能够加速Agent的落地,但Agent也会带来更大量的模型推理消耗。火山引擎专门打造了AI云原生ServingKit 推理套件,让模型部署更快、推理成本更低,GPU 消耗相比传统方案降低80%。

AI Agent的混淆与乱象

AI Agent还未兑现真正的生产力,市场已经开始浮现一些乱象,就像大模型早期的热潮,这是新技术从出生走向成熟的必经之路。

从定义上看,今年以来行业就涌现出上百上千的AI Agent,但不是所有Agent的含AI量都足够。Anthropic(Claude背后的公司)表示,我们开始看到两种不同的模式,一种是由代码预先编排的工作流,另一种是代理,它在某种程度上更简单,但在其他方面更复杂。

Anthropic认为,真正的的AI Agent是让LLM自己决定运行多少次,不需要人类告诉它每一步该做什么,它会持续循环直到找到解决方案。

谭待也认为,能完成打油诗、简单报告等任务,不能称之为 Agent。Agent 应能完成专业度较高、耗时较长的完整任务,这是从定性角度来看。从技术实现角度,如果没有运用思考模型,缺乏反思和规划能力,也很难被认定为 Agent。

他说,随着技术落地,今年大家对 Agent 的定义会更加清晰,或许会像自动驾驶分级(Agent L1、L2、L3、L4 )一样,对 Agent 进行分级,目前绝大多数 Agent 可能只是 L1 级别,而真正落地可能需要达到 L2 及以上级别。

站在客户的视角看,不论AI Agent与否,能够在实际上场景解决业务需求才重要,工作流则像是固定的生产线,每个步骤都是预先设计好的,而代理则像是有自主思考能力的助手,可以根据情况自己决定怎么做、做多久,需要企业结合自身的生产场景做判断,现阶段AI Agent不一定比工作流的效果更好。

类比互联网技术和互联网应用生态,后者是比前者宽广千百倍的想象空间,大模型厂商、云厂商等巨头企业,没有理由不自己站在C位,把持住关键的流量和平台入口,而以往的应用范式将被进一步打破。

2025年,可能是AI Agent应用的元年,更可能是大模型产业生态重塑秩序的开端。

来源:TechForWhat

相关推荐