中信建投:端到端训练开启Agent新范式,四月国产Agent迎集中发

360影视 欧美动漫 2025-04-01 20:28 3

摘要:当前预训练大模型边际收益受制于Scaling Law已经逐渐达到瓶颈,更强大的agent(智能体)成为大模型厂商未来发力的重要方向。我们认为,根据agent的技术框架,其发展基本经历了三个阶段,即工作流框架+预训练模型、工作流框架+推理模型、端到端智能体框架+

当前预训练大模型边际收益受制于Scaling Law已经逐渐达到瓶颈,更强大的agent(智能体)成为大模型厂商未来发力的重要方向。我们认为,根据agent的技术框架,其发展基本经历了三个阶段,即工作流框架+预训练模型、工作流框架+推理模型、端到端智能体框架+推理模型。随着以OpenAI Deep Research为代表的第三代智能体的推出,智能体的强大潜力与Scaling Law加速阶段正逐渐显现。我们认为,受益于国产推理模型的强大能力基座,未来国产第三代智能体将展现出巨大的竞争力。

AI Agent成为大模型公司发力方向。当前,大模型成本投入过大,预训练边际收益在放缓,数据面临边界,以及以DeepSeek为代表的开源模型崛起,单纯的API模式无法支撑模型厂商盈利。因此,更聪明,能推理,能调用不同工具,能满足个性化需求,在应用层可实现更高价值链的AI Agent成为大模型公司急需发力的方向。

端到端强化学习的智能体框架Agent上限更高。围绕架构可以将智能体划分为Workflow(工作流)和端到端的Agent(智能体)两类框架,后者上限更高。其核心突破在于主动决策与动态规划,实现了内化思维链(CoT)与行动链(CoA)生成能力、动态选择最优工具优化API调用、跨会话行为优化等效果。相较于传统工作流,端到端Agent框架标志着AI系统从“流程执行者”向“目标驱动型决策主体”的范式跃迁。而工作流驱动的Agent核心依赖人工设计的规则与提示词通过结构化步骤完成任务,这类工作流的典型特征表现为被动响应机制。

我们认为,智能体可以主要分为三类:一是纯基于工作流框架的智能体。二是基于工作流框架,依靠推理模型进而具备长思维链能力的智能体。三是基于端到端智能体框架,实现CoT+CoA双轮驱动任务推进的智能体,这一代智能体最大限度地拓展了自身能力边界。根据大模型Scaling Law,第三代智能体的能力目前还处于加速扩展的阶段,主要受益于推理模型的升级和强化学习技术的快速突破。

随着OpenAl Deep Research和Claude 3.7 Sonnet的推出,我们看到针对任务的强化学习在推理过程发挥强大作用,更在工具调用,任务执行方面体现了强大潜力。我们认为,国产模型在强化学习的出色表现,将为下一步Agent的发展打下坚实基础,相信4月开始将陆续有国产优秀的Agent涌现出来,成为AI落地的重要场景。

大模型技术发展不及预期:大模型属于先进AI算法,若后续大模型算法更新迭代效果不及预期,则会影响大模型演进及拓展,进而会影响其商业化落地等;

商业化落地不及预期:大模型的商业落地模式在业界中普遍处于探索阶段,用户对于大模型的接受程度和商业化变现能力可能不及预期;

算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需要大量算力资源,需要关注中美关系带来的算力的压力;

政策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律法规尚不完善,政策监管力度可能不及预期。

数据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果。

于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。

庞佳军:电子行业联席首席分析师、人工智能组联席首席分析师,东南大学硕士,7年半导体行业经验,曾在Marvell、Nvidia、平头哥半导体、乐鑫科技等公司从事芯片研发和管理,2022年加入中信建投电子团队,专注研究CPU、GPU、EDA等领域。

证券研究报告名称:《端到端训练开启Agent新范式,四月国产Agent迎集中发布潮》

对外发布时间:2025年3月30日

报告发布机构:中信建投证券股份有限公司

本报告分析师:

来源:点滴财学

相关推荐