【技术】Agent应用路线图

摘要：探讨Agent技术、企业落地路线图，覆盖了豆包、Coze业务中提炼出来的经验积累。

4月19日，我在Datafun上做了一期专题分享：Agent应用路线图

探讨Agent技术、企业落地路线图，覆盖了豆包、Coze业务中提炼出来的经验积累。

以下是文字版讲解，仅供参考。

分享大纲：

从LLM应用方法引申出Agent方案介绍Agent基础知识，RL Agent与LLM Agent的区别LLM Agent进化过程，架构设计方法Agent 应用路线图Agent 发展趋势，新技术（MCP/A2A/GUI Agent等）

（1）LLM 应用方法

之前做过6年多对话系统项目，深刻体会到ChatBot研发的“理想美好”（CUI）和“现实残酷”

对话式交互形式让人憧憬，而上一代pipeline技术栈又让人不得不面对现实，在业务需求与技术局限性中努力平衡。

详见往期文章：

【2023-10-16】内部分享文字版：大模型时代，对话系统何去何从？【2024-11-14】IT-PUB 直播分享文字版：大模型时代对话系统（续）

LLM横空出世后，对话系统技术栈受到巨大冲击，让人既喜又惊：

2020年左右，各类chatbot（智能音箱/个人助理等）陷入困局，有多少人工，就有多少智能，一度被人戏称“人工智障”。有人断言，NLU方案只要还是“槽填充”，智障就无法避免。于是，ChatBot凉凉了。2022年底，以ChatGPT为代表的LLM，凭借强大的理解、生成能力让人再次燃起希望，“喜”。原来工业界主流的pipeline（流水线）架构与学术界demo级别的end2end（端到端）架构的地位互换，极简的自回归模式居然实现了end2end对话系统！随之而来的是“惊”，技术架构大变样，过往的pipeline架构经验大部分作废，对话系统开发成本也大幅降低，以前20人，现在只需要2-5人。

是的，我被LLM卷到了！

大模型技术攻占了对话系统60-80%的江山。

原pipeline架构里，NLU/NLG基本都被占领，DM也丢失了一半，剩下的ASR/TTS也在逐步被多模态LLM替掉。

为什么会这样？

LLM引起NLP范式的巨大变化：

第三范式：2018-2022，以BERT为代表的pre-train+finetune 两阶段范式，下游根据任务单独微调才能使用。这个范式也才持续4年多。第四范式：2023年之后，LLM开始提示学习，只需要根据需求设计prompt，就可以直接完成任务，无须微调模型。第三范式到第四范式的快速切换，让大量NLP任务（底层/中层）“消失”，沉淀到基座LLM中，而NLP算法工程师被迫成了提示工程师。

实际上，第四范式的影响不止NLP，搜索、图像、视频、音频等都被波及。

接下来，大部分行业的大部分业务价值将被大模型拿走，已有应用需要按照LLM升级或重新设计。

详见：【拾象投研】大模型（LLM）最新趋势总结

大模型技术如何落地？

面对业务场景，不再是首选微调，而是提示工程（PE）、检索增强生成（RAG）、微调，以及复兴的Agent技术。

LLM应用范式区别：

从PE到RAG，FineTune（局部+全部），模型权重更新比重逐步提升，效果更好，但代价更大。

路线图如下：

路线：PE-> Function Call ->Workflow-> RAG-> Finetune-> Agent其中，Agent特殊，与LLM相对无关，离AGI更近。

详见往期文章：大模型落地技术路线图

（2）Agent 介绍

LLM是“缸中之脑”，只能解决离散、孤立的任务，特点是无时空依赖。

但真实场景中更多的是连续、环境捆绑的人物，这类任务LLM无能为力。

怎么办？AI Agent 连接了大模型与业务场景，充当了价值传递桥梁。

模拟人脑决策方式（PDCA），精心设计Agent（关键能力：感知、规划和行动），与环境持续交互，进而完成任务。

这个想法很早就有了，之前是强化学习（RL）驱动Agent，而现在成了LLM 驱动的Agent。

智能体Agent的复兴依赖LLM Agent的特性：

具备一定世界知识初步推理、规划能力工具适用能力上下文学习等

什么是Agent？

Agent = LLM + Memory + Plan + Tool

分别概述核心模块：Memory、Plan和Tool

① Memory 记忆

LLM 本身没有记忆，每次请求都是无状态。

怎么办？模拟人脑记忆机制。

人类拥有DNA记忆、短期记忆、海马体记忆、皮层记忆、长期记忆，

分别模拟三种记忆方式：感知记忆、短期记忆和长期记忆

② Plan 规划：

两种常见方法：ReAct、Reflecting（改进）

•【2024-2-5】中科大Understanding the planning of LLM agents: A survey

③ Tool 工具

工具适用能力相当于给LLM装上“手脚”，具备行动能力。

典型实现方式是2023年上半年推出的函数调用（Function Call）

④ 多智能体

单智能体（Single-Agent）能力有限，难以处理复杂问题，此时需要借助多智能体（Multi-Agent）。

多智能体的自主性、容错性、灵活性更好，重点在于协作。

难点是如何组织Agent结构。

篇幅所限，不过多展开，更多Agent知识见往期文章：

大模型智能体 LLM AgentAgent技术解读：Memory记忆模块Agent技术解读：Planning（规划）模块

（3）Agent 设计

由于LLM本身的不足：无状态、不稳定，使用方式从直接调用升级到RAG、工作流（workflow），再到Agent，自动化程度逐步提升。

Saleforce论文总结了Agent两个维度上的发展趋势：

架构（横向）：独立LLM→单智能体→多智能体性能（纵向）：推理加速（提示词优化）、推理效果提升（对应推理LLMs）

其中的关键组件是推理、评估和自我纠正。

详见：

【2025-4-12】Salesforce A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

论文有些晦涩，好在LLM顶级公司Anthropic的专家做了更详细、通俗易懂的报告

【2024-12-19】Anthropic：Building effective agents

图解如下：

整体趋势：传统工作流（重规则）→AI工作流（局部自动化）→Agentic AI（主体自动化）工作流（workflow）的组织方式有多重：链式（串行）、路由分流、分总（并行）、总分总（协作）、自我进化（对抗）多智能体结构：主从（协作）、层次（主从从）、分布式（对等协作）

组件选择依赖于业务场景，没有绝对的好坏。

进一步总结Agent应用模式演变过程：

随着自动化程度越来越高，最终会实现全自动智能体其中，红框里部分是“Agentic AI”范畴，注意，增强型LLM包含在内。

各个模式的优缺点分析：

PE依赖：从单智能体开始弱化，直至自动智能体，提示词不再重要。借助工具、记忆、规划等，LLM系统能力逐步增强，幻觉降低应用场景逐步扩大

（4）Agent 应用

为了提升Agent设计效率，市面上有一堆Workflow、Agent编排系统：

Agent框架：MetaGPT、LangChain、AutoGen等GUI 编排平台：Coze（扣子）、Dify、LangGraph、n8n等

箭头表示依赖关系，绿色表示开源，红色是闭源。

GUI 平台重在低代码开发Agent，这类平台跟随LLM技术同步升级：

早期原生Prompt，通过限制格式来支持工具调用接着，诞生Function Call，工具调用效率提升工作流旨在提升主体流程的可控性，GUI降低门槛、提升开发效率单智能体进一步把控制权从人交给LLM，多智能体充分发挥群体智能。

最后，呈现出多功能、多样式的交互形式：

Coze还新增“应用”模式，用户直接拖拽组装交互页面，类似小程序。

最近，还推出“Manus”复现版：Coze Space 扣子空间，提前实现自动化智能体。

详见：【产品】字节版“Manus”：Coze Space 扣子空间怎么样？

Agent设计经验：从易到难，逐步迭代

近期，OpenAI和Anthropic分别推出自己的Agent应用指南。

大体思路差不多，都建议根据业务场景渐进迭代，Agent并非首选，系统设计要精简。

（Anthropic经验比OpenAI更实在，值得仔细学习）

【2025-4-17】A practical guide to building agents【2025-4-5】 Anthropic ：How We Build Effective Agents: Barry Zhang,

根据个人经验，整理Agent应用路线图：

说明：

从左往右，决策因素有：技术可行性、成本/速度要求、错误容忍度、任务复杂程度、流程确定性、角色数目等根据自己的业务特性选择不同方案，一般以workflow+Agent为主。

注意：

不要贪心，结构复杂的Multi-Agent并非首选

因为，Agent本身也有局限性，Multi-Agent效果不一定好！

（5）Agent 发展

接下来，LLM Agent会怎么发展？

初步预估，会快速补齐已知短板，如：推理规划能力、工具效率、端侧设备操控、个性化信息感知、多模态交互等。

简而言之，基座LLM更强、工具调用更好、更加自动化。

其中，MCP和A2A解决了工具、Agent交互瓶颈问题。

MCP推出才4个月，已迅速成为行业标准。

刚推出不到两周的A2A，进一步加强Agent通信效率，破除数据孤岛。

怎么让Agent更加自动化？

除了Manus、GenSpark等实现方案，学术界也在快速推进，比如：ADAS通过Meta Agent Search自主“合成”Agent，而 MaAS 把机器学习里的AutoML引入到Agent框架设计中。

GUI Agent 继续提升Agent实用性，开始遍布各类终端设备：浏览器、操作系统、手机等。

LLM还在不断进化，一步步逼近AGI。

来源：鹤啸九天blog

标签：应用 llm agent 路线图多智能体

本文地址：https://news.43u.com.cn/a/1338192.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐