摘要:5月21日的腾讯云AI产业应用峰会上,腾讯集团高级执行副总裁、云与智慧产业事业群(CSIG)CEO汤道生首次完整阐述了腾讯云的大模型战略,即通过「四个加速」,加速大模型创新、加速智能体(Agent)应用、加速知识库建设、加速基础设施升级,为企业和用户提供「好用
Key Points
腾讯已将旗下与大模型相关的AI产品和应用都聚集到了同一个事业部,经且经过这些调整之后,腾讯提升了Agent的重要性;
腾讯已有两大Agent定制平台:「元器」面向C端,「腾讯云智能体开发平台」面向B端;
腾讯QQ浏览器紧接着上线了一个叫Qbot的Agent,要成为类Manus的通用Agent。
5月21日的腾讯云AI产业应用峰会上,腾讯集团高级执行副总裁、云与智慧产业事业群(CSIG)CEO汤道生首次完整阐述了腾讯云的大模型战略,即通过「四个加速」,加速大模型创新、加速智能体(Agent)应用、加速知识库建设、加速基础设施升级,为企业和用户提供「好用的AI」—— 在基础模型之外,腾讯首次提到Agent。
腾讯已将旗下与大模型相关的AI产品和应用都聚集到了同一个事业部。 今年1月,先是AI助手腾讯元宝被从TEG(技术工程事业群)转入了CSIG;2月,QQ浏览器、搜狗输入法、ima等更多AI应用也被转入了CSIG。随着这两次调整,再加上CSIG原有的腾讯云业务,CSIG已经成为腾讯AI产品落地的核心部门,同时面对个人用户与企业客户。
经过这些调整之后,腾讯提升了Agent的重要性。就在上周腾讯发布今年第一季度财报后的电话会上, 马化腾、刘炽平等高管提出基于微信构建Agent生态的想法。 本周一,腾讯QQ浏览器紧接着上线了一个叫Qbot的Agent,它可以帮助用户执行文件格式转换、应用更新等任务。甚至有报道称,Qbot会与腾讯内部其他产品合作,成为类Manus的通用Agent。
5月21日的腾讯云AI产业应用峰会上,腾讯云副总裁、腾讯云智能业务负责人,腾讯优图实验室负责人吴运声(全面负责优图实验室、腾讯云AI、腾讯云智能平台部、腾讯企点等业务和团队的管理)称,「不同场景需要不同Agent,不只是腾讯自己的产品需要Agent,只要企业业务复杂度高、知识密度强、人力成本高,那么这个行业就应该考虑用Agent重构一遍。」
腾讯云副总裁、腾讯云智能业务负责人,腾讯优图实验室负责人吴运声。
目前,腾讯云已将「大模型知识引擎」(基于大模型的应用构建平台)升级为「腾讯云智能体开发平台」,提供RAG技术、Agent构建能力和插件生态,让每个企业端用户都可以开发出符合自己需求的Agent。
以下是吴运声与包括「新皮层」在内的媒体交流的记录,为方便阅读内容经过编辑。
智能体区别于传统应用的地方在于完成非标、非固定流程任务
提问:腾讯如何定义Agent,它跟传统应用的区别是什么?
吴运声: 我认为最关键的区别在于:
其一、智能体具备自主思考和决策能力。传统的软件开发范式(包括SaaS)通常是开发者事先设计好流程,即使存在分支逻辑,也是开发者预先定义好的。但 智能体面对的是自然语言交互,用户的输入是开放的,不可能穷举所有分支。 这时就需要智能体能够自主理解、规划、执行任务,而不是依赖于固定流程。
其二、智能体能融合确定性工作流与自主规划机制。我们的智能体平台也支持工作流组件的融合。用户可以构建确定性的流程来处理特定任务,同时也允许智能体在其中进行自主规划。这样就 实现了灵活性与确定性的结合 ,能更好地满足复杂多样的企业应用场景。
提问:这使得Agent在开发思路上有何不同吗?
吴运声: 在to B场景下,Agent的本质是一种新的应用形态,具备自主规划能力,可以根据用户的自然语言指令自主调用工具,甚至多个Agent可以协同完成一个复杂任务。这种范式和过去软件预设流程有本质不同。
从技术角度来看,我们会深入研究以下几个核心问题:1.如何实现更精准的自主规划与执行;2.如何实现多Agent协同的复杂任务处理;3.如何构建更高效的工具调用机制。
工具调用技术的演进,已经经历过了几个阶段:
• Function Calling :模型理解用户需求后,直接选择并调用一个工具处理请求。
• ReAct模式 :要求模型在调用工具前,必须进行一步明确思考,说明要解决什么问题、为什么调用这个工具。这一步提升了调用的合理性。
• Code Agent(CodeArts) :不再是一条一条地调用,而是通过生成完整代码,比如循环结构,来批量调用多个接口并计算结果,执行效率更高。
举个例子:如果你要比较中国、日本、新加坡、德国的iPhone 15价格,Function Calling就是一条条查;ReAct会在每一步加上「我现在要查价格,我现在要调用汇率」;而Code Agent会直接生成一段程序,循环遍历各国数据、调用接口、换算汇率、返回结果——高效得多。
所以,不论是应用范式还是底层技术,Agent都在不断快速演进。
提问:我们与理想Agent还有多大差距?面临的挑战是什么?
吴运声: 每个人心中理想的Agent标准都不一样。不同场景需要不同Agent,比如现在我希望Agent能像我一样回答问题,教育场景中希望Agent帮孩子解答学科难题。理想Agent因场景而异。
我个人认为 Agent开发目前还没有出现泾渭分明的路线。 我们专注的是如何构建能力更强、更丰富的Agent应用,这需要调用多种已有能力和不同模型。比如在我们的平台上,用户可以从下拉菜单里选择不同的模型作为思考模型或理解模型,灵活配置。不存在单一固定的技术路线。
这个变化其实源自技术的迭代和演进,不是突然转向。像模型智慧化、任务拆解、工具调用能力,早在两年前就有相关研究,只是现在技术成熟、产品化,才被更多关注和应用。技术研究是渐进过程,不是从零到一的突变。
提问:有哪些行业或场景最适合率先落地Agent?在哪些地方Agent能发挥最大价值?
吴运声: 这个问题让我想起二三十年前,大家问「信息化最适合哪个行业」时的场景。其实现在回头看,当时任何确定性的回答都不太准确。因为每一个行业都有自身的复杂性和转型需求,最终能否落地还是取决于企业自身的理解和推动。
现在智能体的发展就像信息化起步的那个阶段, 不是某个行业「特别适合」,而是每个行业都值得重构一遍。 只要企业业务复杂度高、知识密度强、人力成本高,Agent技术就有用武之地。关键在于业务人员和企业家如何理解Agent与自己场景的结合点。
提问:哪些客户和腾讯Agent合作最多?哪些行业的客户落地会更广一些?
吴运声: 我们现在在各个行业其实都有大量合作,比如:汽车行业客户会用Agent做售后知识支持、故障自诊断;金融行业会用Agent做智能客服、知识库问答;文旅行业用Agent做行程规划、票务问询;消费电子、家电行业用Agent做产品推荐、使用指南;医药连锁、零售行业用Agent做商品问答、门店引导等。
这些都已经不是概念验证,而是在生产环境中真实落地的场景。我们今天展示了一个「客户Logo墙」,上面列出了很多合作伙伴。
提问:你怎么看当前AI应用的发展趋势?智能体会是最有前途的方向吗?
吴运声: 智能体是AI应用里最有前途的这种说法其实比较模糊。AI在很多领域都有广泛应用,智能体确实发展迅速,且智能体技术本身就是基于大模型。
很多企业使用的大模型技术算不算智能体,其实界限没有那么分明。 智能体和大模型是互相促进的关系。 智能体依赖于大模型的发展,特别是模型在理解任务、自主规划和调用工具等能力上的进步。
所以我认为AI的发展是全方位的,不仅包括大语言模型、多模态模型,还有语音模型、视觉模型等一系列模型的进步。 智能体是其中一个非常重要的方向。
腾讯已有两大Agent定制平台:「元器」面向C端,「腾讯云智能体开发平台」面向B端
提问:最近一两个月,腾讯在视觉模型和多模态模型方面的发布节奏明显加快了,背后有哪些考量?
吴运声: 我们现在发布节奏加快,本质是客户需求在驱动我们不断优化技术堆栈。无论是视觉、多模态、文本还是智能体技术,它们其实并不是孤立演进的,而是彼此协同、共同支撑整个企业AI应用的落地。
举个例子,我们早期就有一个非常重要的产品——媒体AI中台,服务对象包括电视台、广告公司、内容平台等。很多客户有海量的媒体内容,尤其是视频内容,最常见的需求是:快速检索视频中的某一段内容,例如1990年春晚中冯巩的小品;将长视频自动切分、分类、打标签;或者对视频内容生成摘要,便于理解和传播。
过去用传统AI技术实现这些能力的时候,效果并不理想。比如抽取关键词、生成摘要这类任务,对语言理解能力的要求很高。传统模型对「第十一届三中全会」或「2008年北京奥运会」这种长实体的识别非常依赖词典或规则,扩展性很差。
但现在我们有了大模型,特别是多模态大模型,在语义理解、上下文建模、内容切分、标签生成等方面都有显著提升。比如:视频理解不再是单纯依赖视觉模型,而是视觉+文本多模态协同;通过引入Agent+工作流机制,也可以将整个内容理解与加工流程高度自动化、模块化地重构。
所以你会看到我们在视觉模型、多模态模型上的开源和产品化节奏会快很多。这 不是单点能力的堆积,而是以客户需求为中心 ,把能力整合成「系统性解决方案」的过程。
提问:从腾讯的视角看,哪些场景或者任务更适合用Agent来做?
吴运声: 从C端用户角度看,大家可能会首先接触到一些比较典型的Agent任务,比如这个调研报告、生成图片视频、执行指令类任务,感受会比较直观。但从产品和技术人员的角度,我们其实更关注的是这些Agent背后的核心能力构建。
比如我在演示中展示的一个关键点是我们把浏览器沙箱与浏览器工具集成到了平台中。为什么要做这个?因为我们发现,不管是办公还是生活场景,浏览器都是非常核心的交互工具:登录OA系统报销、预订会议室;搜索孩子学校的信息、整理出行攻略,或者打开公司网站获取资料等。
如果Agent具备了使用浏览器的能力,那它的「行为边界」就大大拓展了,可以覆盖很多真实场景。这也是我们平台赋予开发者和客户「想象空间」的关键。
未来我们也会研发本地电脑的沙箱能力(Computer Use插件),让Agent可以操作本地软件、编辑文档、调用工具,就像一个「虚拟操作员」。你设想一下,如果一个Agent不仅能上网,还能帮你打开Excel自动填报销单、用Photoshop批量裁剪图片,那它在企业内部的价值就会非常大。
提问:你刚才提到,腾讯在帮助客户落地智能体的过程中已经形成一些方法论和理念,具体是什么?
吴运声: 举个例子,我们最近在智能体工作流中引入了「全局Agent」机制,就是因为客户实际在使用工作流时会遇到一个普遍问题:执行到后面的流程节点时,用户经常需要「回头」修改前面的内容。
传统的工作流系统没法很自然地处理这种跨节点的回跳逻辑。 如果你要在每个节点都加条件判断和返回路径,那是非常复杂且低效的。
所以,我们引入了一个具备「全局视野」的智能体(Agent),把整个流程结构用PDL(流程描述语言)来编码,然后交给这个Agent解析和理解。这样一来,当用户在某个节点操作时, Agent可以基于对整体流程结构的理解来判断和引导,实现一种「有意识」的交互。
再比如知识库里的问答应用。我们有客户做了一个关于自家产品的智能体,结果用户跑去问它竞争对手的问题(比如「娃哈哈怎么样」)。这就引发了企业品牌管理上的顾虑:不希望AI去评论友商。但如果你不加限制,AI可能会「自由发挥」,给出不合适的回答。为了解决这个问题, 我们在RAG(检索增强生成)流程中引入了内容约束机制,可以让智能体只回答与自家产品相关的问题。 这些能力,其实都是在与客户真实业务结合的过程中不断打磨出来的。
提问:这过程中,你们遇到过挑战吗?
吴运声: 挑战主要有两个方面。
技术层面:目前的Agent框架仍在快速演进,尤其是在自主规划(planning)这个环节,底层模型还不能100%把复杂任务完全准确地拆解并执行。这是 模型和框架协同进化的问题。
客户认知层面:很多客户还停留在对「Agent」作为一个新概念的理解阶段。但真正要用好Agent,需要掌握它的使用方式、搭建方法和运行机制。这中间存在一个不小的「认知与使用」鸿沟,也需要我们通过产品体验优化、培训、服务等多种方式不断去弥合。
我们相信,随着模型能力增强+平台工具完善+企业认知提升,智能体将在更多行业场景中真正发挥价值。
提问:在腾讯的AI生态里,智能体开发平台处于什么样的位置?
吴运声: 智能体开发平台的定位是为客户搭建更强大、更复杂的智能体应用。我们在做这个平台时,天然会整合腾讯过去积累的各类AI能力,比如端到端的语音识别和交互能力。以刚才演示的寄快递场景为例,语音通话能力贯穿始终,这正是我们以前积累的优势。
所以智能体平台其实是把我们已有的技术和能力更好地整合,赋能客户和开发者构建更强大的智能体应用。这也体现了我们从基础能力到应用层面整体协同发展的战略布局。
提问:腾讯有个「元器」产品,也是Agent类的能力,和现在的腾讯云智能体开发平台是什么关系?
吴运声: 这两者是面向不同用户群的产品形态:
「元器」是一个偏C端的产品,主要是跟「元宝」结合,用来为个人用户或轻量开发者提供智能体定制能力,也支持一键发布到元宝或QQ智能体中。
「腾讯云智能体开发平台」则是面向B端的企业级Agent平台,强调的是系统性构建、数据接入、安全隔离、跨角色协作等复杂能力。
一句话总结就是: 元器更轻,更适合C端创作;腾讯云智能体平台更重,是帮助企业构建真正能落地的智能体系统的。
提问:腾讯智能体开发与字节Coze、百度千帆、阿里百炼等竞品相比,有哪些区别?
吴运声: 我们更关注自身优势。比如我们在知识管理上有独特能力,支持大规模结构化表格查询、精准问答、文档比对等。工作流Agent有全局视野和智能回退、多Agent转交机制,还有丰富的权限管理和私有化部署能力。市场多家竞品百花齐放是好事,有利于技术发展。
来源:晚晚的星河日记一点号