摘要:日本最大的IT服务提供商富士通 (Fujitsu) ,宣布搞出了一项革命性的生成式AI重建技术,简单来说,就是能给那些臃肿的AI大模型来一次极限“抽脂瘦身”,效果堪称炸裂:模型体积直接砍掉94%,原本需要四块高端GPU (图形处理器) 才能跑得动的大家伙,现在
日本最大的IT服务提供商富士通 (Fujitsu) ,宣布搞出了一项革命性的生成式AI重建技术,简单来说,就是能给那些臃肿的AI大模型来一次极限“抽脂瘦身”,效果堪称炸裂:模型体积直接砍掉94%,原本需要四块高端GPU (图形处理器) 才能跑得动的大家伙,现在一块低端GPU就能轻松拿下,而且准确率几乎没掉线!
AI“胖”到跑不动,一场“减肥革命”势在必行
咱们先聊聊为啥非要给AI“减肥”。现在的大型语言模型,动不动就几百上千亿的参数,没点家底你都玩不起。根据富士通自己的研究,一个典型的大模型就得四张高端显卡伺候着,电费是问题,应用场景也受限制。
科学家们想了不少办法,比如量化 (Quantization)、剪枝 (Pruning) 等等。其中,量化用得最广,就是想办法用更少的数据位宽来表示模型参数。但问题是,这个“减肥”不能太过火,一旦减到1位或2位这种极限程度,AI的智商就会断崖式下跌,准确率直接掉到20%以下,基本上就废了。
作为其Fujitsu Kozuchi AI服务的核心技术,富士通这项生成式AI重建技术,可以说完美解决了“减肥”和“保智商”的难题。
富士通在2024年9月30日联合Cohere Inc.专门为企业级安全环境打造的大模型Takane LLM,在日语处理能力上,拿下了全球顶尖的分数,是当之无愧的“日语学霸”。Takane专门为金融、医疗这些要求极高的行业做了特训,主打一个安全、精准、可靠。
基于Takane模型,富士通推出了两大神技。
第一个叫“量化误差传播” (Quantization Error Propagation, QEP)。传统量化在极限压缩时,会因为四舍五入之类的操作产生误差,这些误差在一层层的神经网络里不断累加,最后积重难返,导致模型性能雪崩。富士通的QEP技术就聪明了,它不再让这些误差“野蛮生长”,而是给它建立了一套“记账和补偿”机制。每一层产生的误差,都会被清清楚楚地记录下来,并传递给下一层,下一层在计算时就会把这个误差考虑进去进行补偿。这就好比接力赛跑,前一个人掉棒了,后一个人知道从哪捡起来继续跑,而不是一脸懵逼地从头开始。
靠着这套骚操作,富士通成功实现了1位LLM量化,这是目前最狠的压缩方式,结果呢?内存消耗减少了94%,准确率还保住了89%!这是个什么概念?同级别的其他技术,比如GPTQ,在2位量化下准确率就不到20%了。这项成果牛到直接被顶会ICIP 2025收录。
如果说QEP是顶级的“瘦身术”,那第二个“专业知识蒸馏” (Specialized AI Distillation) 就是逆天的“返老还童术”了。传统的知识蒸馏,是让一个大的“教师模型”去教一个小的“学生模型”,但学生往往学不到老师的全部精髓,性能会打折扣。富士通这个不一样,它的灵感来自人脑,我们的大脑会根据学习和经验,重组神经回路,让特定技能变得更强。
富士通的技术就是模拟这个过程。它不是简单地让学生模型去模仿老师,而是先对基础模型进行“脑部手术”,该剪掉的冗余知识就剪掉,该增加的新能力就加上。然后,通过一套叫神经架构搜索 (NAS) 的技术,像星探一样,从一堆候选的小模型里,挑出那个最适合特定任务、潜力最大的“好苗子”。最后,再让Takane这个“学霸老师”,把最核心的知识精准地传授给这个“特长生”。结果就是,这个“学生模型”在自己的专业领域,表现甚至超越了体型庞大、知识渊博的“老师模型”。
富士通内部测试,一个只有原始模型1/100大小的学生模型,在做销售谈判预测时,准确率竟然比老师高了43%,推理速度快了11倍,而GPU内存和运营成本暴降70%。这简直是“教会徒弟,饿死师傅”啊!
强不强,看数据
富士通直接把成绩单贴出来了,让大家看看什么叫“降维打击”。
先看量化技术的PK。
不同量化方法的性能对比(数据来源:富士通官方新闻稿及相关研究论文)
从这张表里能清楚地看到,在1位量化这个最极限的赛道上,富士通的QEP技术无论是内存减少还是准确率保持,都是遥遥领先的断层第一。当别人还在为保住七八成的准确率苦苦挣扎时,富士通已经稳定在了近九成,这差距不是一点半点。
再来看更神奇的专业知识蒸馏技术,这才是真正的不讲道理。
专业知识蒸馏技术在不同应用场景中的性能表现(数据来源:富士通官方新闻稿及媒体报道)
传统蒸馏方法能让模型性能不掉太多就谢天谢地了,富士通这边倒好,模型缩小到百分之一,准确率还能反过来涨一大截。销售谈判预测案例里,知识蒸馏技术带来43%的准确率提升,11倍的速度,70%的资源节省。
AI的未来,在云端,更在你的指尖
过去,因为模型太大,我们的手机、汽车、智能手表里的AI,需要把数据传到云端处理完再传回来。富士通的技术,让强大的代理AI模型直接在这些边缘设备上运行成为可能。
无论是金融风控、制造业质检,还是医疗影像分析,都可以通过专业知识蒸馏,用极低的成本训练出针对性极强的专用小模型。富士通内部那个准确率提升43%的销售预测系统,就是最好的例子,它让销售团队的决策有了更可靠的数据支持。
富士通这项技术通过大幅降低硬件需求和运营成本,推动了绿色AI的发展。IT Business Today就评论说,这不仅是技术突破,更是AI可持续发展的重要一步。
参考文献:
来源:算泥社区