【技术】Agent应用路线图

360影视 动漫周边 2025-04-23 10:52 3

摘要:探讨Agent技术、企业落地路线图,覆盖了豆包、Coze业务中提炼出来的经验积累。

4月19日,我在Datafun上做了一期专题分享:Agent应用路线图

探讨Agent技术、企业落地路线图,覆盖了豆包、Coze业务中提炼出来的经验积累。

以下是文字版讲解,仅供参考。

分享大纲:

从LLM应用方法引申出Agent方案介绍Agent基础知识,RL Agent与LLM Agent的区别LLM Agent进化过程,架构设计方法Agent 应用路线图Agent 发展趋势,新技术(MCP/A2A/GUI Agent等)

(1)LLM 应用方法

之前做过6年多对话系统项目,深刻体会到ChatBot研发的“理想美好”(CUI)和“现实残酷”

对话式交互形式让人憧憬,而上一代pipeline技术栈又让人不得不面对现实,在业务需求与技术局限性中努力平衡。

详见往期文章:

【2023-10-16】内部分享文字版:大模型时代,对话系统何去何从?【2024-11-14】IT-PUB 直播分享文字版:大模型时代对话系统(续)

LLM横空出世后,对话系统技术栈受到巨大冲击,让人既喜又惊:

2020年左右,各类chatbot(智能音箱/个人助理等)陷入困局,有多少人工,就有多少智能,一度被人戏称“人工智障”。有人断言,NLU方案只要还是“槽填充”,智障就无法避免。于是,ChatBot凉凉了。2022年底,以ChatGPT为代表的LLM,凭借强大的理解、生成能力让人再次燃起希望,“喜”。原来工业界主流的pipeline(流水线)架构与学术界demo级别的end2end(端到端)架构的地位互换,极简的自回归模式居然实现了end2end对话系统!随之而来的是“惊”,技术架构大变样,过往的pipeline架构经验大部分作废,对话系统开发成本也大幅降低,以前20人,现在只需要2-5人。

是的,我被LLM卷到了!

大模型技术攻占了对话系统60-80%的江山。

原pipeline架构里,NLU/NLG基本都被占领,DM也丢失了一半,剩下的ASR/TTS也在逐步被多模态LLM替掉。

为什么会这样?

LLM引起NLP范式的巨大变化:

第三范式:2018-2022,以BERT为代表的pre-train+finetune 两阶段范式,下游根据任务单独微调才能使用。这个范式也才持续4年多。第四范式:2023年之后,LLM开始提示学习,只需要根据需求设计prompt,就可以直接完成任务,无须微调模型。第三范式到第四范式的快速切换,让大量NLP任务(底层/中层)“消失”,沉淀到基座LLM中,而NLP算法工程师被迫成了提示工程师。

实际上,第四范式的影响不止NLP,搜索、图像、视频、音频等都被波及。

接下来,大部分行业的大部分业务价值将被大模型拿走,已有应用需要按照LLM升级或重新设计。

详见:【拾象投研】大模型(LLM)最新趋势总结

大模型技术如何落地?

面对业务场景,不再是首选微调,而是提示工程(PE)、检索增强生成(RAG)、微调,以及复兴的Agent技术。

LLM应用范式区别:

从PE到RAG,FineTune(局部+全部),模型权重更新比重逐步提升,效果更好,但代价更大。

路线图如下:

路线:PE-> Function Call ->Workflow-> RAG-> Finetune-> Agent其中,Agent特殊,与LLM相对无关,离AGI更近。

详见往期文章:大模型落地技术路线图

(2)Agent 介绍

LLM是“缸中之脑”,只能解决离散、孤立的任务,特点是无时空依赖。

但真实场景中更多的是连续、环境捆绑的人物,这类任务LLM无能为力。

怎么办?AI Agent 连接了大模型与业务场景,充当了价值传递桥梁。

模拟人脑决策方式(PDCA),精心设计Agent(关键能力:感知、规划和行动),与环境持续交互,进而完成任务。

这个想法很早就有了,之前是强化学习(RL)驱动Agent,而现在成了LLM 驱动的Agent。

智能体Agent的复兴依赖LLM Agent的特性:

具备一定世界知识初步推理、规划能力工具适用能力上下文学习等

什么是Agent?

Agent = LLM + Memory + Plan + Tool

分别概述核心模块:Memory、Plan和Tool

① Memory 记忆

LLM 本身没有记忆,每次请求都是无状态。

怎么办?模拟人脑记忆机制。

人类拥有DNA记忆、短期记忆、海马体记忆、皮层记忆、长期记忆,

分别模拟三种记忆方式:感知记忆、短期记忆和长期记忆

② Plan 规划:

两种常见方法:ReAct、Reflecting(改进)

更多:

•【2024-2-5】中科大Understanding the planning of LLM agents: A survey

③ Tool 工具

工具适用能力相当于给LLM装上“手脚”,具备行动能力。

典型实现方式是2023年上半年推出的函数调用(Function Call)

④ 多智能体

单智能体(Single-Agent)能力有限,难以处理复杂问题,此时需要借助多智能体(Multi-Agent)。

多智能体的自主性、容错性、灵活性更好,重点在于协作。

难点是如何组织Agent结构。

篇幅所限,不过多展开,更多Agent知识见往期文章:

大模型智能体 LLM AgentAgent技术解读:Memory记忆模块Agent技术解读:Planning(规划)模块

(3)Agent 设计

由于LLM本身的不足:无状态、不稳定,使用方式从直接调用升级到RAG、工作流(workflow),再到Agent,自动化程度逐步提升。

Saleforce论文总结了Agent两个维度上的发展趋势:

架构(横向):独立LLM→单智能体→多智能体性能(纵向):推理加速(提示词优化)、推理效果提升(对应推理LLMs)

其中的关键组件是推理、评估和自我纠正。

详见:

【2025-4-12】Salesforce A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

论文有些晦涩,好在LLM顶级公司Anthropic的专家做了更详细、通俗易懂的报告

【2024-12-19】Anthropic:Building effective agents

图解如下:

整体趋势:传统工作流(重规则)→AI工作流(局部自动化)→Agentic AI(主体自动化)工作流(workflow)的组织方式有多重:链式(串行)、路由分流、分总(并行)、总分总(协作)、自我进化(对抗)多智能体结构:主从(协作)、层次(主从从)、分布式(对等协作)

组件选择依赖于业务场景,没有绝对的好坏。

进一步总结Agent应用模式演变过程:

随着自动化程度越来越高,最终会实现全自动智能体其中,红框里部分是“Agentic AI”范畴,注意,增强型LLM包含在内。

各个模式的优缺点分析:

PE依赖:从单智能体开始弱化,直至自动智能体,提示词不再重要。借助工具、记忆、规划等,LLM系统能力逐步增强,幻觉降低应用场景逐步扩大

(4)Agent 应用

为了提升Agent设计效率,市面上有一堆Workflow、Agent编排系统:

Agent框架:MetaGPT、LangChain、AutoGen等GUI 编排平台:Coze(扣子)、Dify、LangGraph、n8n等

箭头表示依赖关系,绿色表示开源,红色是闭源。

GUI 平台重在低代码开发Agent,这类平台跟随LLM技术同步升级:

早期原生Prompt,通过限制格式来支持工具调用接着,诞生Function Call,工具调用效率提升工作流旨在提升主体流程的可控性,GUI降低门槛、提升开发效率单智能体进一步把控制权从人交给LLM,多智能体充分发挥群体智能。

最后,呈现出多功能、多样式的交互形式:

Coze还新增“应用”模式,用户直接拖拽组装交互页面,类似小程序。

最近,还推出“Manus”复现版:Coze Space 扣子空间,提前实现自动化智能体。

详见:【产品】字节版“Manus”:Coze Space 扣子空间怎么样?

Agent设计经验:从易到难,逐步迭代

近期,OpenAI和Anthropic分别推出自己的Agent应用指南。

大体思路差不多,都建议根据业务场景渐进迭代,Agent并非首选,系统设计要精简。

(Anthropic经验比OpenAI更实在,值得仔细学习)

更多:

【2025-4-17】A practical guide to building agents【2025-4-5】 Anthropic :How We Build Effective Agents: Barry Zhang,

根据个人经验,整理Agent应用路线图:

说明:

从左往右,决策因素有:技术可行性、成本/速度要求、错误容忍度、任务复杂程度、流程确定性、角色数目等根据自己的业务特性选择不同方案,一般以workflow+Agent为主。

注意:

不要贪心,结构复杂的Multi-Agent并非首选

因为,Agent本身也有局限性,Multi-Agent效果不一定好!

(5)Agent 发展

接下来,LLM Agent会怎么发展?

初步预估,会快速补齐已知短板,如:推理规划能力、工具效率、端侧设备操控、个性化信息感知、多模态交互等。

简而言之,基座LLM更强、工具调用更好、更加自动化。

其中,MCP和A2A解决了工具、Agent交互瓶颈问题。

MCP推出才4个月,已迅速成为行业标准。

刚推出不到两周的A2A,进一步加强Agent通信效率,破除数据孤岛。

怎么让Agent更加自动化?

除了Manus、GenSpark等实现方案,学术界也在快速推进,比如:ADAS通过Meta Agent Search自主“合成”Agent,而 MaAS 把机器学习里的AutoML引入到Agent框架设计中。

GUI Agent 继续提升Agent实用性,开始遍布各类终端设备:浏览器、操作系统、手机等。

LLM还在不断进化,一步步逼近AGI。

来源:鹤啸九天blog

相关推荐