大模型‘量变引起质变’的关键因素探究

摘要:TechSphere《智驭前沿》X AIExplorer Live 节目携手智瀚首席架构师李瀚宇、云途算法总监管泽涛、未来科技研究院特聘副研究员赵晨曦以及星际新加坡研发中心高级工程师林逸翔,针对AI领域近期热议的焦点——扩展定律是否已达极限,进行了深度对话。此

TechSphere《智驭前沿》X AIExplorer Live 节目携手智瀚首席架构师李瀚宇、云途算法总监管泽涛、未来科技研究院特聘副研究员赵晨曦以及星际新加坡研发中心高级工程师林逸翔,针对AI领域近期热议的焦点——扩展定律是否已达极限,进行了深度对话。此次交流不仅揭示了当前大型模型发展的实况,也为未来的技术革新描绘了蓝图。

一、扩展定律现状:极限或新征途?

面对大型语言模型在扩展定律上遇到的难题,管泽涛指出,仅凭逻辑推理能力的提升不足便断定已达极限,这一判断略显狭隘。他分享了未来学院与智慧理工学院等机构的研究成果,显示输入

模式的变换能显著提升模型的推理力,这意味着我们可能尚未真正触及极限,而应在输入设计、训练流程及输出设计等方面探索新的突破点。

赵晨曦则认为,尽管扩展定律目前尚未真正遭遇极限,但收益递减的现象已相当显著。他强调,随着高质量数据的消耗,后续模型的边际收益将逐步减少。因此,未来的关键点在于挖掘新领域的数据与知识,而非仅仅依靠现有语料库的扩展。

林逸翔从推荐系统的视角提供了不同看法。他指出,尽管ChatBot已面世近两年,但星际科技今年发布的论文才首次揭示了推荐系统中的扩展定律潜力。实验表明,参数量增至十亿甚至更高时,模型性能有显著增强。然而,在实际工业应用中,推荐系统的网络参数通常不到十亿,因为最终需权衡ROI。他预测,未来两年内推荐系统中大型模型的参数量可能仍维持在十亿以下,但长远来看其潜力依然巨大。

李瀚宇则引用了一篇报告的观点,该报告指出过去几年大型模型训练的计算量平均每年增长3倍,按此速率推算至2030年训练计算量将扩大至当前的约8千倍。然而,这并不意味着没有挑战。能源供应、数据中心电力、GPU产能、数据传输带宽与延迟以及高质量数据的获取等都将成为制约因素。

二、量变至质变的密钥:数据、算力与模型框架

在探讨大型模型“量变引发质变”的关键时,各位专家纷纷发表了见解。

管泽涛强调,算力充分支撑海量数据时带来的指数级性能提升是扩展定律的核心。然而,随着算力逐渐丰富,限制因素已转向数据和能源。他认为,未来的突破点在于获取更多高质量语料,这是实现大型模型质变与飞跃的关键。

赵晨曦则从模型规模和数据维度的角度进行了分析。他指出,高密度、高质量的数据能显著增强模型的扩展能力。在通用模型中易于观察到扩展现象,但在特定领域如推荐系统中则难以直接应用。他强调,需要找到影响扩展的核心数据因素并重新定义适用的指标,以更好地利用扩展定律的潜力。

林逸翔分享了星际的研究发现,他们发现用开源模型的核心参数能很好地预测过去模型的性能。这引发了一个问题:大型模型这五年到底取得了哪些进展?他认为,虽然难以全面回答但有两个点是明确的:一是高质量数据的增多显著提升了模型性能;二是训练平台的完善支持了更大规模模型的训练。然而未来训练更大规模模型仍面临基础设施挑战如持续训练的稳定性和通信无误等。

李瀚宇则从实际项目出发指出高质量数据的重要性。他认为虽然堆积算力和模型规模可以带来一定提升但数据质量不足时效果难以达到最优。他分享了生成式推荐系统的例子指出延长用户行为序列有助于提升效果但真正的关键在于提取核心特征这需要大量工业与工程工作来构建高质量的训练数据。

三、大型模型发展的未来:优化、应用与融合

在探讨大型模型发展的未来方向时,各位专家一致认为优化、应用与融合将是核心。

管泽涛指出在企业场景中少数公司能承受无限制投入算力和数据的高昂费用。多数企业会选择预训练一个基础模型后通过微调适应具体场景。他强调应用场景的实际落地才是更大的挑战未来应用将更注重封装从基础语言模型的知识增强到与具体产品结合再到更高层次的商业化场景开发。通过逐层封装推理能力将不断拓展应用端的创新将成为主要趋势。

赵晨曦则从推理阶段的实际问题出发指出当前个性化能力仍有明显不足。他强调通过整合用户历史记录或检索路径到推理过程中可以更好地满足个性化需求。在推荐系统和广告等领域这种基于推理阶段的个性化优化可能为大型模型的实际应用带来更多创新和价值。

林逸翔则强调了训练和推理的效率问题。他指出推荐系统对时延要求极高这使得像OpenAI的o1这样的技术短期内难以实际应用。因此他们的重点在于如何降低训练和推理的时延与成本从而支撑更大规模模型的落地应用。

李瀚宇则结合国内外算力差距指出国内更侧重于优化应用和用户体验。他分享了AI产品在实际应用中的成功案例如开学季学生们广泛使用AI产品这表明这些产品在解决实际问题方面非常有效。尽管底层模型与国外的先进技术有差距但国内的AI产品在实际应用中依然表现优异。

四、大型模型项目的成功评估:多维度视角下的考量

在探讨如何衡量大型模型相关项目的落地是否成功时各位专家给出了不同的视角。

管泽涛指出他们内部主要从企业角度、用户体验角度以及前瞻性角度进行评估。他认为如果大型模型技术能带来更大的指标提升或显著提高工作效率则被视为一次成功的实践。同时他也强调如果传统算法的改进空间趋于饱和而大型模型技术在优化上更具潜力那么资源投入到大型模型中更具长远价值。

赵晨曦则从用户、企业和技术三个角度进行了阐述。他认为大型模型的成功取决于是否易用、能否满足用户需求并在特定任务中表现出色;同时也取决于投入与回报是否匹配以及性能表现是否显著提升。

林逸翔则强调了线上效果和用户体验的重要性。他认为如果模型消耗算力能带来收益增长且用户认为模型好用则视为成功。此外他还关注大型模型对国产芯片的推动以及为行业提供更优质的支持。

李瀚宇则结合商业价值进行了总结。他认为大型模型的成功主要取决于是否能带来实际的收益或增长而不是单纯消耗资源。如果它能通过提升产品效果、吸引新用户或增加收入实现正向ROI那么它就是一个真正成功的产品具备持续发展的能力。

五、深入探索:大型模型应用架构的探索与实践

在即将举行的AIExplorer全球人工智能开发与应用大会2024北京站上,多位业界资深专家将分享他们在大型模型应用中的宝贵经验,深入剖析大型模型在产品设计中的架构模式与方法论。同时,他们将探讨如何应对大型模型在实际应用中面临的挑战,如成本控制、性能优化、效果提升及效率提高等问题。

其中,【大型模型应用架构的探索与实践】专题将聚焦大型模型在各个领域的应用案例,分享如

何通过优化架构设计和算法创新来提升大型模型的性能和效果。这将为我们提供更多关于大型模型未来发展的启示和思考。

总结而言,大型模型的发展正步入一个关键阶段。面对扩展定律的挑战与机遇,我们需要从多个维度进行深入探讨与实践。通过挖掘高质量数据、优化算力利用、创新模型框架以及加强应用落地等方面的努力,我们有望推动大型模型实现真正的质变与飞跃。同时,我们也需要关注大型模型在实际应用中的挑战与问题,通过不断优化与创新来提升其性能和效果。只有这样,我们才能更好地利用大型模型的潜力为人类社会创造更多的价值。

在TechTalk《智驭未来》X AIForum 直播专栏中,我们荣幸邀请到了智驭科技的首席架构师李悠然、云途电商的算法负责人赵晨曦、未来科技学院的资深研究员陈思远以及星辰科技新加坡实验室的高级工程师韩星辰,共同探讨大模型的现状与未来。

首先是关于科学贡献的展望。我们期待大模型在未来能够攻克人类尚未解决的难题,比如物理学或数学领域的重大挑战。倘若大模型能够解开类似黎曼猜想的谜题,或是实现大统一场论,这无疑将是人类智慧的又一巅峰之作,甚至足以载入诺贝尔奖的辉煌史册。尽管这一目标看似遥远,但它无疑充满了无尽的魅力与期待。

李悠然:在当前的工作实践中,大模型项目的迭代是否更多地受到了实际业务需求的驱动呢?

赵晨曦:作为商业部门的负责人,我更加关注大模型所能带来的业务价值。只有当明确看到其潜在收益时,我们才会投入相应的资源。目前,大模型已经在诸如商品推荐、文案创作、视频生成以及广告竞价等多个场景中得到了广泛应用,这些复杂场景对模型的性能提出了极高的要求,比如广告推理需要在极短的时间内完成。同时,高质量的数据对于提升模型性能至关重要,但仅仅依靠数据的堆砌是远远不够的,我们在数据处理方面投入了巨大的精力。由业务需求驱动的大模型应用正在迅速发展,成为企业不可或缺的重要力量。

陈思远:在工业界,我们更注重的是业务收益,而学术界则更加关注大模型的原理以及架构的优化。例如,为什么某些架构能够实现规模的扩展,而另一些则无法做到,这正是我们研究的重点所在。此外,我们还致力于研究大模型在推荐系统中的优化问题,如推理速度、数据依赖性以及微调能力等,旨在揭示其底层的运行机制,并推动模型在实际场景中的更好应用。

韩星辰:作为工业界的一员,我们的研究和落地始终围绕着商业价值展开,既关注短期内能够上线并带来业务提升的技术,也着眼于长期的发展需求。我们推演了未来三到五年的推荐系统发展趋势,比如embedding table的规模是否会从当前的TB级扩展到百TB、千TB,模型规模是否会达到10B、100B等。这些趋势要求我们更加关注分布式推理、训练以及压缩加速等技术,它们都是未来发展的关键所在。

李悠然:大模型的发展与业务需求紧密相连,二者相互促进、共同发展。业务需求推动着大模型的不断升级,而新的能力又催生出新的需求,形成了一个良性的循环。在过去的一年里,大模型已经从语言处理扩展到了多模态能力,如视觉理解和语音处理,未来还有可能加入视频处理,支持更加复杂的场景。这些进展都是由实际应用中的需求所推动的。我们也需要根据实际需求对大模型进行优化,调整其规格和性能,以满足不同场景的需求。

未来展望

李悠然:在当前的发展瓶颈下,您认为大语言模型(LLM)的发展应该侧重于哪些方面的改进或创新呢?

赵晨曦:我认为大模型的发展最终应该致力于拓展人类的能力、改善人们的生活。无论是研究型还是应用型科技,都应该关注它们对人类生活的实际影响。我更关心的是在未来三到五年内,大模型是否能够在生活方式、知识边界以及工业生产等方面带来突破性的改变。对此,我充满了信心与期待。

陈思远:从学术的角度来看,我对未来推荐大模型与语言大模型的结合充满了浓厚的兴趣。目前,这两者仍然是相对独立的,但如何消除个性化问题与通用语言模型之间的鸿沟,如何在实际场景中实现统一的范式,是一个值得深入探索的方向。如果能够实现这一点,可能会颠覆现有的推荐系统形式和交互模式。

韩星辰:在大模型时代,算法从业者需要跳出单纯的算法或模型思维,转向更加全面的系统视

角。除了高质量数据的挖掘和模型优化外,更要关注大模型系统的构建,如数据的高效拉取、分布式训练的稳定性以及线上高效推理等。这些都是让大模型真正发挥作用的关键点。

李悠然:作为工业界的一员,我认为降低大模型的成本是当务之急,只有不断优化才能实现普惠化,让更多人能够用得起大模型。同时,我期待大模型在扩展规模和增强泛化能力上能够带来涌现效应,比如具备解决未知问题的能力。这种创新有望为复杂任务的管理和日常生活带来显著的改善,帮助人类从繁琐的任务中解脱出来,将更多的精力投入到真正重要的事情上。

华远系统是致力于人工智能(AI算法以及流媒体技术),信息软件技术,新能源、物联网等领域的集成商,在智慧社区,智慧园区,智慧停车,充电桩(储能充电站/光储充)及充电桩软件管理平台,储能系统集成,车联网有整套解决方案以及成功的项目案例。

来源:华远系统一点号

相关推荐