传神何恩培:基于双网络架构的数推分离大模型探索与实践

360影视 2024-11-22 10:33 4

摘要:大模型的发展正面临着一个有趣的悖论:它需要持续学习新知识以保持竞争力,却难以高效处理增量数据。当新的数据产生时,要么需要耗费巨资重新训练整个模型,要么只能通过向量数据库这样的外挂方案来检索信息。这就像一个成年人要学习新知识,却需要重新上一遍大学,或者只能依靠随

作者 | 何恩培

出品 | CSDN(ID:CSDNnews)

大模型的发展正面临着一个有趣的悖论:它需要持续学习新知识以保持竞争力,却难以高效处理增量数据。当新的数据产生时,要么需要耗费巨资重新训练整个模型,要么只能通过向量数据库这样的外挂方案来检索信息。这就像一个成年人要学习新知识,却需要重新上一遍大学,或者只能依靠随身携带的笔记本翻查资料。

这个困境源于大模型的传统架构:知识获取和推理能力被捆绑在一起。一家深耕人工智能领域 20 多年的中国企业提出了一个独特的思路:为什么不能像人类大脑一样,将“能力提升”和“处理问题”的场景分开?先将大模型训练到一定能力,到客户那里再去现场学习客户数据,成为处理客户问题的专家。这种能力被一个叫“任度”的大模型实现了,任度大模型通过双网络架构架构,实现了“数推分离”——将推理网络和客户数据学习网络分离,让大模型获得了类似人类的认知方式:推理网络负责思维和决策,客户数据学习网络到客户现场负责知识获取和存储,如同两个大脑,分头学习联合推理,形成了高效的“双脑”工作模式。

11 月 14 日,在北京举办的2024全球机器学习技术大会上,传神语联创始人何恩培首次对外系统分享了这一创新架构的探索历程。在这场题为《基于双网络架构的数推分离大模型探索与实践》的演讲中,他提出了一系列引人深思的观点:

“在下一阶段的发展中,Scaling Law还会继续发挥作用,但以大模型为代表的人工智能正在从Scaling Law时代进入实时学习时代,只有能够实时学习的大模型,才是能够为客户创造价值的大模型。”

“数推分离很好地解决了这个问题:当模型达到一定智能水平后,让聪明的推理大脑到客户现场去学习、理解客户的历史数据和每时每刻产生的新数据,为客户贡献智能。”

“并不是每一个数据都能提升网络的智能程度。业界早有结论表明,如果数据质量不够好,有时候越训练反而会让模型变得更'笨'。”

“开源很重要,可以快速解决当前问题,让我们当下过得更好,但一定要拿出一定资源支持自主可控的原始创新——根原创,因为自主可控的根原创技术,才会让我们未来可以长久的过得更好更安全。”

以下是何恩培演讲全文:

这场全球机器学习技术大会的意义对我们来说格外重要,因为这是我们团队、我们公司,以及我个人,第一次正式对外展示我们20多年的技术和实践。过去,我们一直主要将精力集中在基于自有技术研发和应用上,虽然我们一直认为自己做的东西不一定是最好的,但我们的技术在解决实际问题中是高效而灵活的,确实走出了自己的技术路线今天,我想向大家分享基于我们根原创技术的大模型——任度。

我们为任度选择了一个独特的标识(Logo):海星。这个选择有其深意:首先,它展现了无中心化的特点,即使将海星的每一片切开,每一部分都能重新长成一个完整的海星。这可能也是大模型领域首个使用生命体作为标识的案例。

从2023年开始,我们的技术以大模型产品形态已经陆续进入了一些行业。最近我查看了今年6月到9月的大模型采购排行榜,虽然我们的营业额还不算大,但居然已经排到难以理解的第五六位。今年,我们进行了一些专门的评估,并提出了一个重要的评估维度:当模型分数能够达到实用水平(最高分的80%以上)时,将分数除以参数量得出的性能/参数比(性参比)。从评估结果来看,任度具有极高的性参比,很多评测我们性参比都可以排第一。

在评测中,绝大多数框架的参数量都远高于任度,但在性能上,90亿参数的任度大模型并不落后于数百亿乃至千亿参数的大模型。虽然性参比指标还没有成为公开标准,但需要说明的是,这些评测分数并不是随便的,而是采用了最严格的标准——以每家参测公司的最高分数大模型进行排名。

任度大模型的独特之处,在于我们率先实现了双网络架构,即客户数据学习网络与推理网络分离。近期,一些国际头部的大模型公司在谈论如何解决这些问题,说将要在下一个版本中考虑数据和推理方案。但实际上,我们早已找到了解决之道:通过数推分离架构,让模型能够实时学习新数据。从任度2021年诞生之日起,我们就选择了这条不同于传统路径的技术道路,这个选择被实践证明是正确的。

我们的人工智能底座的开始可以追溯到1999年。经过无数次迭代,形成了独特的技术体系。在发展过程中,我们的每一次迭代都留下了重要的技术印记。

回顾历史,在2001年之前,中国的人工智能基础算法和模型方向的开源还不够普及。正是在这样的背景下,我们开始自己的AI路,为了提高开发效率,开始逐步建立自己的算法库。真正的转折点出现在2015-2016年,当谷歌(TensorFlow)和Facebook(PyTorch)两家成熟的大公司开放自己的算法框架时,我们团队进行了深入讨论:是否要转向使用开源框架?

在那个时期,开源就像空气、阳光和水一样重要,似乎不用都不正常。而我的团队告诉我:“我们用了这么多时间建立自己的技术体系,兑现功能和应用很有效,并不比用开源差,为什么不继续用我们自己的呢?”我听取了他们的建议,现在看来这个决定意义非凡。到2021年,我们开始开发第一个法律领域的大模型,构建了今天的基于数推分离的大模型架构。

为什么我们要做数推分离?这源于2021年开发法律大模型时遇到的一个实际问题:我们的大模型已经学习了一亿条法律判例案例,但每天都有新的判例产生,如何让大模型源源不断的学习新的法律案例?在2022年、2023年,大模型如果被问到当下的事情,往往会说“我的数据更新截止于2022年12月30日”。这促使我们思考:是否可以用一种新的架构来解决这个问题?

我们认为,让一个成熟的大脑去学习新知识,就像人类的学习过程一样,不需要每次学习都重新接受一次完整的教育。每天都会产生新的数据,每个场景都有新的数据,如何高效处理这些增量信息?基于这种思考,我们决定将数据推理和数据处理分离,我们内部称为“原生大脑”“后天大脑”

这是我们基于moH(混合商)架构实现的数推分离模式。moH(混合商)架构源于过去二十年中开发的一套基于神经网络智能数据库技术与transformer杂交,形成了现在的moH架构。

在这个架构中,我们实现了推理网络和客户数据学习网络的分离。这种分离基于一个重要认识:并不是每一个数据都能提升网络的智能程度。业界早有结论表明,如果数据质量不够好,有时候越训练反而会让模型变得更“笨”。数推分离很好地解决了这个问题:当模型达到一定智能水平后,让这个聪明的推理大脑去挖掘和理解客户的数据。

具体来说,我们让客户数据学习网络学习客户数据,然后与训练好的推理网络进行联合推理。这个联合推理通过共同的中间表达层和特征嵌入层,确保两个网络对同一个概念有相同的理解和表征,避免认知不一致的问题。我们使用中间表达层和三种嵌入层(内容嵌入、位置嵌入和权重嵌入),使得整个神经网络之间的信息传递更加有效。这两个大脑的连接不是简单的接口,而是神经网络层面的深度连接。

这种架构带来了显著优势。让我们看看当前大模型的普遍状况:如果要让模型掌握新数据、成为某个领域的专家,通常需要对整个大模型进行再训练或进行精调。这种训练投入巨大,且更重要的是训练的结果并不一定理想,还可能出现模型能力退化的风险。

从另一个角度来看,今天大模型面临的不仅仅是算力投入的问题、还面临人才有限问题,更重要的是即便投入大量资金,训练完成后还不一定成功,可能会出现退化,所以它比一般的软件开发更具挑战性。同时还面临着数据处理的难题:如果要进行训练,是客户训练还是模型厂商训练?客户的数据是否提供给模型厂商?

目前大模型应用面临一个普遍难题:出于数据安全考虑,企业数据不能离场,大模型只能像一个“隔岸观火”的顾问,因为没有学习客户数据,极大限制了模型能力发挥。而任度的双网络架构提供了一个创新解决方案:通过推理和数据处理两个网络分离,不仅提高了推理效率,更重要的是实现了在客户现场进行数据学习的能力。这里的参数优化不是针对单一推理网络,而是两个网络协同训练的结果。

在当前大模型落地客户,基于向量的数据处理已经成为主流方案,但这种方案存在明显局限。传统方案是将用户意图分解后,通过向量库在客户数据中检索相关信息来支持推理,这种方式往往只能获取表层信息,无法实现对数据的深度理解和挖掘。结果就是,大量潜在的有价值信息被遗漏,影响了模型的实际表现。

任度的双网络架构则采取了不同的方案:通过让专门的客户数据学习网络对客户数据进行全面理解和学习,再与推理网络协同工作,显著提升了处理效果。我们进行的对比实验很好地证明了这一点:在一个包含6份目标正确目标简历的测试集中,要找出所有符合特定要求的6份简历,多次测试我们的系统能够保持平均98%的准确率,而传统的向量库方案,只能找到2-3份符合要求的简历,这个案例平均准确率在30%-50%。

这种架构带来的另一个重要突破是数据管理的灵活性。在传统方案中,如果发现训练数据存在问题(无论是意识形态方面还是其他错误),往往需要推倒重来,投入数百万重新训练整个模型。而在双网络架构中,只需要从数据网络中移除问题数据即可——我们成为数据“拔插”技术,这个过程不会影响模型的基础认知能力,极大降低了维护成本和难度。

这一创新让大模型真正具备了持续学习的能力:它可以在客户现场不断吸收新知识,随着数据的优化而持续进化,无需反复进行全量训练。这实际上让每个操作团队、每个公司都能拥有一个完整的、持续进化的大模型系统。此外,这种架构还有一个显著优势:过去,我们习惯于把大量数据存储在各种设备中,但真正需要使用时往往很难找到。在柜子里找文件很困难,即便是在电脑里找电子文件也很麻烦。而我们今天对数据的依赖程度越来越高,这使得数据处理变得越来越重要。

在今年上半年,业界普遍在讨论如何支持更长的上下文长度,从二十万到两百万,甚至一千万字。但在我们的推理网络和客户数据学习网络分离后,这个限制已经不复存在。现在我们处理数据时,从一行文字到海量的音视图文数据都不再受到限制。模型的理解深度和处理能力已经完全可以解决这个问题,同时不再受到模态的限制,可以处理跨模态的内容,在同一篇文章中处理文字、图像等多种形式的信息。

如今,“数据交易”的概念正在兴起,许多人想建设一个数据市场。但众所周知,即便个人数据价值很小,人们也会想保护;即便数据价值很大,也会面临流通的困难。无论是企业之间还是部门之间的数据交换,都面临着很大挑战。一般来说,数据可以分为三类:可以互通的公有数据(其价值可能相对较小,甚至可能已经在市面上流传)、难以流动的过程数据、以及不可出部门的涉密敏感数据。

通过数推分离网络架构,客户数据学习网络可以接触到不同类型的数据,而无需实际获取这些数据,从而可以在保护数据安全的同时充分发挥数据的价值。这就让数据能够真正地服务于企业,转化为实际的智能价值。在数推分离的层面,我们不再需要进行昂贵的模型训练——动辄需要几百万美元或者几十万人民币的投入。

而在我们的实践中,Scaling Law(扩展定律)确实很重要,如果没有Scaling Law,我们可能走不到今天。但如果过度依赖Scaling Law,就会面临两个现实问题:首先,几千亿或几百亿参数的大模型需要的硬件投入是天文数字;其次,在面向客户实际部署和落地的过程中,如何解决模型与客户数据的学习问题?每个应用场景是否都需要配备如此庞大的算力设施?

我认为,在下一阶段的发展中,Scaling Law会在该发挥作用的领域继续发挥作用,但实时学习可能会成为大模型发展的新重点。更重要的是如何处理那些需要被挖掘、证明的数据,特别是那些私有数据。我们现在要解决的核心问题是:如何处理客户的数据?如何将私有数据产生的智能能力分享给客户的伙伴?如何及时处理每天新产生的数据?

我们的moH架构并不是简单拼凑出来的,而是建立在一个非常优秀的算法框架zANN之上。zANN中的“Zero”代表从“零”开始,意味着我们可以用极小的数据量完成智能化目标。这个架构可以追溯到1999年,那时它只是一个简单的种子。我们开发这套系统最初只是为了让团队开发更快一些,让团队能够更好地协同工作。特别是在2000年初期,当时我们面临着各种硬件限制,这促使我们不断改进和优化这个框架。

在实践中,我们发现这套框架不仅方便开发,更重要的是能够灵活搭建各种网络架构,包括异构神经网络架构。这种灵活性为我们今天的创新提供了基础。每个人都想要创新,但如果创新是建立在别人的架构之上,往往会受到诸多限制。就像盖房子一样,如果地基是别人的,想要改变就会受到很多制约。就像已经建好的房子,改造也只能打掉不承重的墙,做一些局部改动。

正是这个高效灵活的的算法框架,使我们能够实现数推分离。这也是为什么我们要建立一个完全自主可控的创新体系。虽然今天开源技术也可以实现某种程度的可控,但我们追求的是更彻底的自主性。这就是我们所说的“根原创”——我们认为,万事都要有根,地基要有底。当今市面上大部分的模型可能不是从底层开始的,而是从某一层开始的。而我们就是从最底层开始,把算法、框架、模型架构到各个模型全部掌握在自己手中。

很多人问过我:“你是怎么下定决心做这件事的?”实际上,我当初并没有特意下定什么决心。在神经网络还只被认为是一个玩具的时代,我们就在用它解决实际问题,从那时起就开始构建这套体系。今年7月8日,为了验证我们团队所说的是否属实,我们请中国信通院进行了评测。评测进行得很快,他们对照了所有的开源框架、所有的开源代码、所有与人工智能相关的开源模块。最终,评测报告对任度大模型及其moH模型架构给出了五大认定:无主流开源大模型依赖、无主流开源机器学习框架依赖、无第三方开源库依赖、无开源许可证依赖、无已知开源安全漏洞风险。这些评测结果表明我们的技术确实是完全自主可控的。反观那些只要沾边开源的项目,基本上很难做到完全“纯粹”,因为开源代码中往往还包含其他开源代码,而奇安信的报告表明99.16%的开源项目存在漏洞。

记得去年3月,我和CSDN创始人蒋涛通电话时说:“蒋总,我们团队做的大模型只有21亿参数,这算大模型吗?”蒋总思考了很久才说:“应该算吧。”

我的团队告诉我,一般认为200亿参数的模型才算大模型。最后,经过一个月的讨论,我们坚定地选择了公开21亿参数这个大规模。而从前文提及的评测数据来看,我们的21亿参数模型在9月份的SUPERCLUE评测中位列第十,而排名相近的模型参数量都远超过我们。这个结果有力证实了我们技术路线的价值。

但我想强调的是,这份成绩是长期坚持的自然结果。我们始终专注于自己认定的技术方向,从来没有受到外界声音的干扰。只是今天,我们终于站出来告诉大家:这是我们自己很幸运的走通了一条技术路线。在这里,我要特别感谢我们的团队。他们中有些人的贡献可以追溯到1989年,远比1999年更早。我要对我们的人工智能革命团队表示衷心的感谢和深深的敬意。看到自己多年的努力终于得到展示,我相信他们一定会感到欣慰和开心。

任度的优势主要体现在三个方面:首先是突破性的数推分离架构;其次是卓越的性能参数比,具体表现在训练成本仅为同类模型的五分之一到十分之一,在实际应用中硬件需求和能源消耗更是降低到同类产品的二分之一到五分之一;第三是完整的自主可控能力这从根本上保障了系统的安全性,杜绝了潜在的安全隐患。

为了让这项技术更广泛地服务于实际应用,我们即将推出任度双脑大模型一体机。这是一套完整的解决方案:客户只需要经过简单的培训,技术人员就能将这台一体机连接到他们的数据系统中。如此一来,任度就能自主学习客户的数据,从一个隔岸观火的外部顾问转变为深入理解企业内部情况的专家顾问。该一体机具有三大特点:训练成本接近于零,无需专门的训练流程;训练速度达到小时级,处理几百G的数据只需要几个小时;使用效果等同于重新训练,但无需复杂的操作过程。

这种技术自主性在当前国际形势下显得尤为重要。我们看到,一些国际上被普遍认可和尊重的开源项目管理者,会因为地缘政治原因删除某些国家开发者的账号。这表明,地缘政治已经不是科技界、文化界的身外之事。技术封锁已经从可能变成现实,一些国家甚至开始推动立法,将禁止开源人工智能技术出口。同时,开源安全问题也不容忽视。奇安信2023年的报告显示,90%以上的开源项目存在漏洞,其中超高危漏洞占比高达77%。这些数据给我们敲响了警钟。

我想强调的是,我并不是说开源技术不好。但一定要拿出一定资源支持自主可控的原始创新——根原创,因为自主可控的根原创技术,才会让我们未来可以长久的过得更好更安全。我相信中国有很多像我们这样的团队在默默耕耘,他们或许还没有站出来,但终将会成为中国 AI 技术发展的重要力量。

展望未来,我们已经规划了技术生态的开放路径。通过持续的积累与沉淀,我们希望将这套体系发展成为一个开放的生态系统。这条道路的选择并非源于理想主义,而是基于市场和客户的认可给予我们的前进动力。希望各位能够给予我们支持和包容。

来源:CSDN一点号

相关推荐