摘要:大模型演进至今,大家一直在等待一个杀手级应用,Agent的出现正在让这一构想成为可能。Agent能将大模型的强大能力与实际业务场景结合,实现更加智能化和个性化的应用。百度智能云千帆AppBuilder作为基于大模型的企业级AI原生应用开发工作台,全面覆盖从创意
大模型演进至今,大家一直在等待一个杀手级应用,Agent的出现正在让这一构想成为可能。Agent能将大模型的强大能力与实际业务场景结合,实现更加智能化和个性化的应用。百度智能云千帆AppBuilder作为基于大模型的企业级AI原生应用开发工作台,全面覆盖从创意到部署的高效AI应用开发需求,精准解决大模型技术向实际应用转化的“最后一公里”难题。那么,从传统应用开发到AI原生应用开发,其中的逻辑发生了哪些变化?千帆AppBuilder是如何助力企业提升生产力,加速应用开发的?未来,企业级大模型应用开发平台将如何进化?带着这些问题,在《对话AI原生:云智实验室》栏目中,百度智能云千帆AppBuilder产品负责人朱广翔与InfoQ总经理王一鹏展开了一次深度探讨。
以下为本期栏目精华内容:
InfoQ:大模型技术引领千行百业转型升级的同时,也颠覆了应用开发范式。从传统应用开发到AI原生应用开发,其中的逻辑发生了哪些变化?在大模型时代,我们需要一个什么样的应用开发平台?
朱广翔:自己有幸经历了小模型时代到大模型时代这个历程,还是非常有感触的。我从初中开始写代码,一直写到博士毕业也快20年了。但是大模型出现之后,终于不用再写代码了。现在基本上用一些低代码工具,甚至用语言对话就可以直接把应用做出来,这是我从来没有想象到的。不仅我有这种感受,其实我们周边的人都有这种感受。
就像在计算机专业有一个流行的梗:“就差一个程序员了”。意思是说,在团队合作里边,程序员这个角色往往是不可或缺的。而现在,真的是可以缺少程序员了。在百度,每年都会举行一个创意大赛“Hackathon”,过去,基本上一支队伍里有PM、研发,还有一些产品设计同学。最近两年发现,很多团队真的是没有程序员了,只有纯PM和设计师就可以组成一个队。只要有创意,就可以去做一些应用。
通过这个例子发现,大模型时代的到来其实改变了整个应用开发模式。顺应这个模式,大模型到底带来了哪些核心的变化?总结来看,主要是四个方面:
第一,降低开发门槛,提升开发效率,主要是降本。对比大模型和小模型,从原理上讲,大模型在做数据分析、信息处理时,它对语言的理解非常深入。以前小模型需要做很多语言规则,分词、打标,经过一系列复杂的流程,最终才能把一个语言信息做好向量化,再去用于后续处理。在语言生成方面其实也有很大的问题。之前很难生成一些像人一样非常流畅的对话,还是比较机械的,总是需要我们后续去做些结构化的修修补补。这种情况下,效率就非常低,需要花很多精力去做各种前处理、后处理,浪费很多时间。
企业开发中的小模型和大模型之间存在明显的区别。百度搜索信息流有很多关于信息处理的任务,比如数据的分类打标、信息检索。这些任务可能包含几十个任务,每个任务都是准备一批数据训练小模型做对应的任务,是个烟囱式的,一个一个纵向地去发展。随着大模型的出现,这些任务可以被整合到一个统一的底座中,通过一批总体数据来训练模型,从而解决各个任务的问题。这样,企业无需每个部门投入大量IT人员,而是可以设立一个相对公共的IT团队来提高整体效率。
第二,增强效果。和大模型相比,小模型在语言理解、推理、生成以及执行任务等方面的能力相对较弱。就像我们经常去测算大模型的容量,其知识量相当于全地球的人阅读60年的书,可以说是“天上一天,人间一年”,大模型思考一秒可能就相当于小模型或人类思考几年、几十年,它的能力非常强。大模型不仅能回答问题,还能深度解决问题,它可以发起任务,调用一些系统工具执行流程,并最终获得结果。不仅告诉你怎么做,而且帮你做好。
第三,改变交互。以往的交互主要依赖于图形用户界面(GUI)的操作,点点选选,而大模型采用的是基于语言的对话交互方式,能够更好地满足长尾需求。比如,过去我们很难记住一个系统中二级目录或三级目录的具体内容,通常只能看到界面上首页的几个按钮,许多长尾需求因此被掩盖。而大模型的出现使得语言对话成为可能,类似于从传统的门户网站发展到百度搜索,用户可以通过输入关键词来发起问答,模型会帮助分发问题并指导使用适当的工具或功能来解决问题,从而提高效率。这种交互方式的变革让用户路径发生了翻天覆地的改变。
以上三个方面总结来看其实都是+AI的方式。第四种就是AI+——先有 AI,AI原生了一个业务。举个例子,以前大家制作PPT基本是先搜索一堆素材,再进行拼接和修改,最终制作出一份完整的PPT。如今,像百度文库可以端到端的直接生成PPT。再比如,在编写代码方面,过去仅有一些代码提示和检索等辅助功能,而现在,百度的Comate可以自动生成代码,这在以前也是不可能的。此外,千帆AppBuilder最近为很多教育用户做拍照解题,以前有拍照搜题,如今借助大模型,它在拍照之后不仅能给出问题的答案,还能详细阐述解题的推理过程、各种思路和流程。这实际上是一个推理生成的过程,这种应用在以前是完全不存在的,是0-1的过程。
总的来说,大模型带来的核心变化体现在四个方面:降本、增效、改变交互、发现新机会。
InfoQ:在2024百度云智大会上,千帆大模型平台宣布升级到3.0版本,对比2.0,千帆AppBuilder有哪些主要升级点?这些升级对于企业开发AI应用来说,带来了哪些新的可能性和变化?
朱广翔:千帆AppBuilder从2.0到3.0主要实现了两大升级点:第一个是企业级RAG(Retrieval-Augmented Generation),第二个是企业级Agent。
RAG,即检索增强生成,它利用搜索技术强化大模型的知识源,从而降低幻觉,增强知识回答的客观性和可解释性。举个形象的例子来对比RAG和裸模型(纯大模型):裸模型类似于闭卷考试,面对问题时只能依靠事先学好的知识进行回答,如果知识储备不足,就可能出现“不知道答案只能乱写”;而RAG类似于开卷考试,面对问题时可以去网上搜索、查阅资料,找到大量参考素材,基于这些素材和原始问题进行阅读理解,从而给出更加准确、有据可依的答案。
Agent和裸模型的对比就类似于人与猿的对比。人类之所以区别于其他动物,是因为人类拥有复杂的思考过程,能够指导自己的行为,并且能够使用各种工具。Agent就像拥有一个中控核心大脑,它能够思考如何将原始任务拆解为子任务,然后逐步完成。在这个过程中,Agent会根据任务类型调用相应的工具,借助各种工具来扩展自身的能力,就像“长出三头六臂”一样,拥有更多解决问题的能力。
InfoQ:当前,RAG技术的受欢迎程度在工业界、产业界和学术界正逐渐成为共识。而随着企业级RAG技术的发展,它在特定场景下的应用潜力日益凸显。根据您的观察,企业级RAG技术的核心能力是什么?这些能力将重点解决哪些场景下的问题?
朱广翔:企业级RAG主要解决的是企业在应用RAG技术时所面临的问题。例如,一个企业可能承载着整个单位或组织的所有信息和知识,文件数量庞大。在个人电脑上可能有几千份文件,而在企业中可能有几千万甚至上亿份文件。这些文件并非静态存放,而是动态变化的。员工随时可能提出问题,系统需要能够迅速检索并召回相关文件,快速给出答案,并且保证服务的稳定性,无论有多少人访问,都能稳定地提供服务。这种非常稳定、高效、海量的知识管理、存储架构和检索效率,其实是企业级RAG核心解决的问题。
企业级RAG也充分发挥了百度的长处。百度20年来一直专注于搜索,拥有非常领先的搜索架构经验以及丰富的搜索内容。千帆AppBuilder主要从搜索技术经验和内容上增强了RAG能力。从技术层面来看,千帆AppBuilder利用搜索对知识进行解析、切片、增强,实现高效的在线检索召回,并与大模型结合快速总结答案、生成最终结果。这套流程快速、准确,处理量大,并且实现了一个无限容量的RAG,无论多少文件都可以存储。我们利用云技术实现在线存储,并支持弹性的扩缩容。业务是变化的,今天存储了100万份文件,明天可能变成10万份,后天又可能变成1000万份。为了让企业拥有更高效、更高性价比的存储方式和检索方式,千帆AppBuilder支持业务量大时扩容,量小时灵活地缩减容量,这种上量和下量的能力也是千帆AppBuilder的特色。这是搜索技术架构给千帆AppBuilder带来的增强。
此外,搜索内容也带来了增强。百度搜索拥有丰富的内容源,如百度文库、百度百科以及一些官方的积累了20年的内容。利用这些内容源来补充企业的知识源,这也是企业级RAG的一个特色。
除了以上两点,企业级RAG还解决了一个核心问题,就是企业的数据一定要安全。一方面是内容安全,内容要合法合规。文心是国内第一批获得国家合规认证的大模型,结合文心大模型的安全能力,千帆AppBuilder全面增强了内容输出的可控性。另一方面是数据传播安全,数据需要隔离。无论是在公有云上实现虚拟隔离,还是购买一个专属机房实现物理隔离,甚至直接将机房部署到本地,这几种模式都是用最强的安全技术去强化数据安全。
此外,企业级RAG还具备对多元信息的处理能力。企业内部存在多种内容源,复杂之处在于企业有许多部门,每个部门都有自己的数据管理方式、管理系统,存在各种知识库、数据库、接口,而且数据格式也非常复杂,包括图文、数据、表格、代码等。千帆AppBuilder对各种来源、各种信息的解析处理都进行了特定的优化,提供一个开箱即用、业界领先的效果。在基础效果之外,千帆AppBuilder还提供了丰富的工具链。用户开箱之后,可以利用工具链根据自己的场景化数据进行面向场景化的调优,实现更极致的效果。
百度是国内第一个发布大模型的公司。大模型发布之后,当其他公司在发布大模型的时候,百度就在做RAG,并且积攒了很多经验。经过我们调优后,效果可能从90提升到了99,实现了9个点的增长。研发团队积攒了大量经验,现在都将其产品化,变成一个一个原子可调的接口,这就是之前提到的工具链。开箱之后,还可以基于特定场景和业务,利用这套工具链达到场景化的极致效果。
InfoQ:随着AI应用的不断进化,Agent已经成为AI应用的最主流形态,即将迎来爆发点。在云智大会和世界大会上,千帆分别发布了自主规划Agent和工作流Agent。这两种Agent有何区别?它们分别解决了哪些场景问题?
朱广翔:这种分类主要是为了区别它们的使用场景。举个例子,一名市场营销专业的大学生相当于自主规划Agent,他在学习期间掌握了一些基本的技能,能与人沟通,并具备一些基本的学科常识。无论面对什么样的客户,他都能很好地获取客户信息,深入了解客户需求,并最终推荐相应的产品。面对不同的人,他能够灵活应对,这体现了他的基础素质。这就是自主规划Agent,它比较自主、智能和灵活。
另一类是工作流Agent。假设该学生毕业后进入企业,企业将他培养成一名专业化的销售人员。经过一系列销售培训,企业告诉他公司的流程,教他如何面向客户,用什么样的话术引导客户,以及如何逐步引导客户从需求沟通到产品推荐,最终促成客户付费下单。这一套流程实际上可以称为“套路”。无套路Agent其实就是自主规划Agent,工作之后有了套路,心中有了一套行为框架,会沿着框架逐步开展工作,这就是工作流Agent。相当于把工作流写入到大模型的“大脑”中,使大模型的对话过程和生成过程能够按照既定流程和企业的SOP(标准操作程序)进行。
企业复杂业务流程的场景,选择工作流Agent,把“套路”写入大模型脑子里,更稳定、可控。灵活智能、需要低门槛开发的场景,选择自主规划Agent,把更多思考规划的工作交给大模型。
InfoQ:千帆AppBuilder作为企业级AI原生应用开发平台,目前在哪些场景中实现了快速落地?这些场景中,千帆AppBuilder是如何助力企业提升生产力,加速应用开发的?是否有一些成功的案例可以与我们分享?
朱广翔:千帆AppBuilder落地的客户主要分为两大类。第一类是泛互联网和泛科技行业的客户。这些客户的业务模式为2B2C,他们拥有自己的C端用户群体。我们为这些客户提供服务,进而支持他们的C端用户使用最终的产品功能。例如,在泛互联网行业中,污水宝是一家专门处理招标文件的公司,拥有海量招标文件。千帆AppBuilder通过企业级RAG技术帮助它托管成千上万的文件,实现快速检索相关招标文件,并根据结构化信息让大模型总结生成报告等。此外,硬件企业酷旗是国内最早从事硬件开发的团队之一。千帆AppBuilder为其提供了工作流Agent,针对其众多硬件产品,如闹钟、手表、耳机、音箱、大屏等,我们根据不同硬件场景和需求设计了相应的工作流和智能体。无论用户提出何种问题,它都能灵活地根据场景进行判断,例如是进行闲聊、播放音乐,还是唤起某些系统功能。
第二类客户是央国企和政企客户,这些客户涵盖多个行业,如政务、能源、工业、金融等。例如,千帆AppBuilder与北京大学联合开发了一款名为“小北学长”的应用。在学生时代,大家面临一个痛点:查询课程信息需要访问课程系统,查询成绩需要访问成绩系统,查询其他信息需要访问教务系统,浏览新闻需要访问官网,甚至需要查看邮箱、群消息等,信息分散在各处,给学生带来不便。千帆AppBuilder利用大模型将分散在各处的几十万条信息,通过企业级RAG的能力进行托管,实现快速问答和知识检索。这个小助手并非像传统搜索那样简单地输入一个词然后给出答案,而是具备深度思考的能力。比如,我问了一个很复杂的问题:推荐重庆人去北大哪个食堂?它需要先思考重庆人的口味特点,然后找到相应提供这种口味的食堂,提供答案。这是一个推理加生成的过程,大模型具备这样的能力,比简单的搜索更进一步。在媒体行业,澎湃新闻积累了2700万的媒资,千帆AppBuilder也是通过企业级RAG使其在媒资管理上能够快速获取信息。
再举一个Agent的例子,中卫慧通是一个服务于基层公务员的团队,它采用的智能体是自主规划Agent,没有那么多套路,就是帮老百姓办事。它预制了许多功能,如一键报案、查询政策、查询信息等。在许多基层地区,尤其是在乡镇和农村,村长和基层公务员数量有限,但老百姓众多。有时,许多外地务工的老百姓回乡后,会咨询异地就医、孩子上学等问题,这些问题相对复杂。但这些问题实际上在政府网站的一些文献中已有答案了,需要有人将供给和需求进行匹配,大模型就办了这个事。千帆AppBuilder开发的智能体上线后,覆盖了18个区县,服务了千万居民,每天有800万次的咨询量。以每个公务员每天能回答200个问题来计算,相当于有百万公务员在服务,极大地提升了基层治理的效率。
InfoQ:展望未来,企业级大模型应用开发平台将如何进化?千帆AppBuilder在未来又有哪些令人期待的规划?
朱广翔:关于下一步,我们也一直在思考,有几个方向特别重要。
第一个方向是多模态。当前正处于信息爆炸的时代,信息形式不再局限于文本,还涵盖了音频、视频、图像等多种类型。为了顺应这一趋势,千帆AppBuilder将平台向多模态领域拓展,支持各种多模态的RAG和多模态的智能体。
第二个方向是大模型和小模型的融合。虽然现在是大模型时代,但小模型并非完全失去价值。例如,在人脸识别、OCR(Optical Character Recognition)等传统领域,小模型依然表现出色且稳定。小模型还有一个重要优势就是速度快,因为它资源消耗少,计算也快,成本更低,对企业来说性价比更高。对于一些简单的查询任务,如之前提到的硬件场景中,酷旗为儿童设计的手表,儿童提出的问题可能较为简单。在这种情况下,它其实不需要用那么强大的模型,可以采用小尺寸模型进行任务分发和分类。对于大模型和超大模型,我们可以采用一种策略,允许用户根据自己的业务需求,自行DIY将各种模型组合起来,以实现最佳的效价比,既能保证效果,又能确保性能,满足用户的使用需求。这也是我们在努力去突破的一个方向。
除了以上两个方面,目前我们所开发的各种智能体、RAG等,基本上还停留在ChatBot阶段,主要以对话框或搜索框的形式呈现。但实际上,企业实际需要的应用往往较为复杂,包括各种较为复杂的管理模块。因此,我们也在积极推进从对话形态的应用向LGUI(自然语言+图形界面)形态应用的升级。千帆AppBuilder所搭建的应用将不仅仅是一个对话框或一个Bot,而是一个真正的APP,无论是移动端的APP、电脑端的Web门户页面,还是类似于企业级ERP、HR系统等复杂应用。只有这样,才能在企业中真正实现智能化和数字化转型,打造出一个能够被企业广泛应用的大型系统,大国重器。
来源:百度智能云官方