摘要:在近期举办的“2024第七届金猿&魔方论坛”中,传神语联创始人何恩培发表主题演讲,深入剖析了传神在大模型“数推分离”技术创新领域的探索历程、实践成果与独到见解,为行业发展提供了新的思路与方向。以下为演讲内容:
在近期举办的“2024第七届金猿&魔方论坛”中,传神语联创始人何恩培发表主题演讲,深入剖析了传神在大模型“数推分离”技术创新领域的探索历程、实践成果与独到见解,为行业发展提供了新的思路与方向。以下为演讲内容:
大模型技术发展至今,推动其能力显著提升的Scaling Law逐渐陷入瓶颈。在大模型落地应用方面,客户和大模型厂商均面临效用问题。一方面,客户质疑投入大量资金却收效甚微;另一方面,大模型厂商苦恼于投入了高额成本购买芯片训练,产品却难以卖出高价。
通过服务客户,我们发现问题的根源在于,大模型在企业中更像是一个置身事外的顾问,而非真正了解企业实际情况的内部专家。造成这一局面的关键因素之一,便是数据和大模型的结合难题。
数据与大模型结合有多种方案,其中最理想的是让大模型深度理解数据,也就是通过预训练,将数据压缩进大模型,使其能对某个细分领域或场景形成深度认知,这是为企业创造价值的重要基础。然而,在实践中这一方案面临诸多挑战。
首先是数据安全问题。如果将数据交给大模型厂商去训练,企业必然担忧数据安全。如果企业自行训练,虽可避免数据泄露问题,但成本高昂,通常比调用大模型厂商做推理高出5-10倍,且需要配备专业技术团队,进一步增加了整体成本。
其次,是数据及时性存在隐患。即使将企业数据顺利压缩进大模型,但后续产生的新数据如何解决?目前行业主流技术解决方案是重新训练,意味着每次新增数据,都要重新对大模型网络压缩处理,导致大模型难以持续地实时学习。
此外,修改数据也是一大难题。例如,我们服务的新闻行业客户,基于其原有数据完成大模型训练后,发现部分新闻稿件存在错误信息,如何剔除错误成为了一大问题,因为数据是反映在大模型网络参数上的,很难知道特定的参数对应哪些原始的数据信息,无法直接通过删除操作解决问题。
而且,数据孤岛问题显著。企业数据往往分散在各子公司和部门,整合难度极大。比如在企业内部,仅是将财务数据和人力数据整合在一起交给某个部门就很困难,更别说跨公司、跨行业的数据联合,因此业内都在探讨“数据入表”该怎么做,如何打通重重阻碍,让散布各处的数据顺利入表。
以上这些客户痛点,是传神在服务客户过程中不断发现的。我认为,这或许源于大模型本质是通过实时学习数据提升智能,进而变成专家。为此我们持续探索,力求通过大模型技术方面的创新或者架构改进,彻底解决阻碍大模型落地的难题。基于此,我们推出了任度大模型,采用双网络架构模式,将推理网络和客户数据学习网络分离,通过架构改进,打通大模型应用落地的最后一米。
任度大模型的显著优势在于其独特的“数推分离”双网络架构设计。常见的大模型多采用数据和推理一体化模式,如同只有一个“大脑”进行集中式处理;而任度大模型的“数推分离”模式,相当于在同一体系中拥有两个独立运作的“大脑”。在完成训练阶段后,推理网络能够阶段性固定,确保已有推理能力稳定可靠;而客户数据学习网络则保持开放状态,持续地实时学习新数据,使模型能够实时适应企业业务的动态变化。具体优势如下:
第一,成本优势显著。模型能够直接部署到客户体系内自主运行与学习,节约了常规大模型不断重新训练产生的额外费用。企业无需引进AI高级人才和额外的的硬件投入,降低了企业成本。
第二,有效避免训练数据风险。部分企业使用自有数据训练模型后,模型性能下降,原因在于企业数据质量不佳,这在常规的数据与推理一体化模型中是难以避免。而任度大模型凭借“数推分离”架构,确保客户数据质量不影响推理网络能力。
第三,独有的数据“拔插”技术。若发现先前提供的数据中存在众多损坏文件、问题数据或需删除的敏感信息,利用我们的模型处理将变得极为简便——直接进行删除操作,仿佛这些数据从未在网络中存在过。相比常规大模型的重新训练,我们的“拔插”技术能够更好地帮助客户优化数据,促使大模型成为与企业协同发展的“孪生”专家。
第四,解决数据孤岛问题。在数据使用上,出于安全考量,跨公司、跨部门乃至跨行业的数据共享受限严重。这种现状促使我们探索新方案:是否能将数据网络直接部署到各个客户中,实现数据不离场?我们发现,数推分离的“双脑”模式恰是解决之道。该模式下,可构建一个机制,实现数据本身不转移,又能为模型训练所用。
由此可见,“实时学习”正在成为引领大模型行业发展新趋势。这种动态的学习能力深度企契合企业数智融合需求,为企业数智转型升级的创新实践注入强大动力。
当下,技术自主可控已成为行业发展的核心要素。传神语联的任度“根原创”大模型,从底层算法框架到上层应用全部为自主研发成果,未使用任何开源代码和框架。在2024年7月信通院测评中,明确任度是“零开源依赖”的大模型,即无主流开源大模型框架依赖、无主流开源学习框架依赖、无三方勘验库依赖、无许可证依赖、无已知开源安全漏洞风险。
回顾15年前,我们也曾就是否采用开源技术展开激烈讨论,最终坚定地选择走国产原创技术路线,并逐步发展至今。凭借对国产原创的执着坚守,我们屡获佳绩,荣膺“专精特新”小巨人企业称号,主导完成‘十二五’科技支撑计划项目,在人工智能技术领域揽获超160项发明专利,成功构建以大语言和大模型为核心的两大业务板块。
如今,在训练推理过程中,我们所消耗的算力仅为同等大模型的1/5—1/10以及1/2—1/4。得益于底层技术自研,我们在硬件适配与兼容方面展现出较强能力,计划于春节后推出“集成“双脑”的大模型一体机产品,进一步提升产品的实用性与便捷性。
之所以如此强调自主可控,是基于对当下人工智能本质的深刻洞察。现今的人工智能与往昔的办公软件截然不同,后者仅作为辅助计算、促进共创的工具,处理问题的方式简单直接,易于掌控。而大模型处理的是海量数据,内部处理过程极其复杂,且具备一定的认知能力与偏见性,存在较大风险。这意味着大模型在一定程度上会影响甚至塑造信息传播和认知形成,影响力不容忽视。
因此,以大模型为代表的新一代人工智能不仅仅是一项技术,更是一个全新的物种。它兼具价值观和一定的不可控性,这使得自主可控至关重要。我们必须坚守自主可控之路,推动大模型技术朝着更健康、更有益的方向发展,在全球竞争中立足,开创属于我们自己的智能时代新篇章。
来源:数据猿