chatGPT-o3越成功,算力的价值越低,英伟达越危险

360影视 2024-12-29 03:18 3

摘要:在一项由现实世界软件任务组成的基准测试中,o3得分71.7,超过了得分48.9的o1和得分41.3的o1 preview(预览版)。而在一项名为Elo的竞争性编程能力测评上,o3取得了2727分,o1评分1891,o1 preview评分1258,o3的性能已

openAI在直播的最后一天放出了重磅的o3模型,仅仅只过了3个月,新的o3模型的表现就远优于o1模型。

在一项由现实世界软件任务组成的基准测试中,o3得分71.7,超过了得分48.9的o1和得分41.3的o1 preview(预览版)。而在一项名为Elo的竞争性编程能力测评上,o3取得了2727分,o1评分1891,o1 preview评分1258,o3的性能已经达到了o1 preview的两倍多。(引用)

但是,优异的性能背后,代价的昂贵的。根据 ARC-AGI 联合创始人 Francois Chollet 的说法,在低计算模式下的半私有评估中得分为 75.7%,在低算力设置下,o3完成每个任务需要花费17-20美元,在高计算模式下得分为 87.5%,在高算力设置下运行单个任务的成本高达数千美元(超过 3400 美元)

o3就是典型的用算力来换性能,按照常理来讲,这应该是利好算力的,利好算力龙头英伟达,但是为什么我说利空算力,利空英伟达呢?因为o3用的高精度算力,而不是低精度算力,而英伟达公布的强劲的GPU性能全部都是指低精度算力,高精度算力性能一般,或者性价比极低。

英伟达最火的算力芯片有3款,A100,H100,以及已经发布小1年,但是仍有没有大规模发货的B200,据说近期又偷偷发布了B300,B300相比于B200,最大的差别就是增加了50%的显存。

英伟达算力芯片参数

o3这类针对推理问题的大模型,需要3类要素齐备:高质量的训练数学,高精度的权重值与键值以及高的精度的算力芯片。但是从上面的英伟达算力芯片的参数看,表示高精度算力的单精度和双精度的性能极差:

A100芯片单精度FP32算力仅19.5T,双精度FP64的算力仅9.7T;

H100芯片单精度FP32算力仅67T,双精度FP64的算力仅34T;

B200芯片单精度FP32算力仅67T,双精度FP64的算力仅40T;

B200其实是2块芯片拼接的大芯片,不是单块芯片,但是这块芯片改善的不是高精度的单精度算力和双精度算力,而是大幅增强低精度的算力。因此,英伟达不论如何吹嘘其芯片性能多么强大,但是无法掩盖英伟达GPU芯片的高精度算力性能低下。

正是由于英伟达高精度算力性能低下,这就导致o3的推理成本极高,以至于几乎缺乏普遍的商业意义。大模型要具有商业价值,就必须具有很强的理科方面的推理能力,单纯的凑字的大模型很难卖出大价钱来,也很难赚钱。大模型的文字推理能力再强,也就是一个更便捷的搜索工具,但是无法辅助医疗诊断、药物研发,科技研发,以及教学辅助。要做医药诊断、药物研发、科技研发以及教学辅助,那么就得采用高精度的大模型和高精度的算力芯片。

事实证明,即使大模型的参数大量增加,但是如果大模型采用低精度的权重与键值,训练与推理时采用低精度的算力时,大模型是不会出现scaning law,也就是数据量、参数量和计算资源(GPU资源)越多,大模型训练出的模型能力和效果越好。而提高大模型的精度,提高算力精度,是在数据枯竭的情况下,继续提高大模型性能的必然路径。

早在半年前,我在测试国内外的大模型的时候,就已经发现了大模型的理科推理性能与精度密切相关,并且发布了相关的视频。但是,那个时候大众普遍关注的是大模型的参数,为了增加参数,同时降低训练成本和推理成本,英伟达把精力都放到了提振芯片的低精度的算力性能上。下半年出的o1,已经12月份出的o3模型,基本宣告了英伟达的研发路径是错误的。

不仅如此,即使英伟达返回来提高GPU芯片的高精度的算力性能,依然无法满足o3等高性能大模型的需求,为什么呢?这就要说到芯片代工了。

芯片代工的时候是需要光刻机的,但是EUV光刻机的光照功率是120瓦到200瓦,为了保证曝光的强度和效率,EUV光源的曝光面积是有限的,阿斯麦在NA=0.33的EXE:3400光刻机,最大曝光面积是26毫米×33毫米=858平方毫米,而最新款的NA=0.55的EXE:5000 EUV光刻机,最大曝光面积是26毫米×16.5毫米=429平方毫米。

H100芯片的面积是814平方毫米,集成了 800亿个晶体管,最新的B200芯片是由2颗B100芯片连接而成,面积依然是814平方毫米,集成的晶体管数量是1040亿个。

根据EUV光刻机分辨率公式,光源分辨率CD=k1 λ/NA,CD表示光刻机分辨率,λ是光源波长,NA是物镜的数值孔径,k1是工艺因子,目前EUV光刻机的k1是0.33。

如果NA是0.33,那么EUV光刻机的理论分辨率CD=0.33*13.5/0.33=13.5纳米。如果在芯片生产的过程中,全部采用EUV光刻,不采用DUV光刻,那么其芯片的理论密度大约是10000/(13.5*3+13.5*15)²=2.68亿个/平方毫米,也就是理论上单块芯片上的晶体管数量大约是814*2.68=2180亿个。

由于该芯片的尺寸极大,而电子在硅材料中的信息传递速度是20万千米,因此该芯片的理论频率是20*10¹⁰/33=6.06Ghz,另外,由于内存延迟、散热等限制,其多核实际频率很难超过4Ghz。

根据英伟达提供的相关信息,大约一个cuda核心及其缓存、控制的平均占用的晶体管数量是360万个,2180亿个晶体管理论上60555个cuda核心。这么多核心,其理论单精度算力是60555*40*2=484TFlops,仅仅是当前H100芯片67TFlops的7.2倍。

如果采用EXE:5000 EUV光刻机,其光刻分辨率是CD=0.33*13.5/0.55=8.1纳米,那么其最大的晶体管密度是10000/(8.1*3+8.1*1.5)=7.5亿个。由于数值孔径扩大,其曝光面积减半,那么理论上单块芯片上的晶体管数量是400*7.5=3000亿个,理论上可以包含85714个cuda核心。

由于晶体管尺寸变小,该尺寸芯片的理论频率是20*10¹⁰/26=7.69Ghz,由于内存延迟、散热等限制,其多核实际频率很难超过5.1Ghz。

因此,该芯片的理论单精度算力是85714*51*2=874T,是当前H100芯片67T的13倍。

另外,还有一个芯片技术是CFET技术,大概意思就是把漏极、栅极、源极从平放改为竖着放,纳米晶体管的尺寸就是(8.1+8.1*1.5)²=410平方纳米,晶体管密度就是24.4亿个/平方毫米,那么单块芯片的晶体管数量最多有约10000亿个,理论上可以包含277777个cuda核心,理论上单精度的算力是277777*51*2=2833,是当前H100芯片67T的42倍。

从理论上看,穷尽所有的技术芯片代工手段,GPU芯片的单精度算力最大增长空间只有42倍。o3模型的算力需求相比4o增长了上千倍,而GPU芯片最大的算力增长空间是42倍,这意味着满足算力需求需要增加几十倍的芯片数量。

英伟达GPU芯片是非常昂贵的,更多的GPU意味着更高的成本,显然英伟达GPU是无法满足o3这类高精度模型的商用需求的。为什么大量AI大模型厂商纷纷都要定制芯片,就是想降低算力芯片的采购成本。但是,即使采用定制芯片,算力采购成本的下降幅度依然不够,因为制程是越来越先进了,但是单晶体管采购的成本下降幅度并不大,这就导致芯片的代工成本也会随着晶体管数量的增加而增加。

如果大模型计算一个任务的成本高达3000多美元,那么研发企业采购大模型的成本可能高达几亿美元甚至上百亿美元,这么高的使用成本会导致没有几个企业能用的起。类似o3的大模型要想大规模的商用,势必要寻找新类型的计算芯片,譬如量子芯片、光子芯片等计算机路线。

国内的deep seek大模型创新了一个模型架构,就是通过训练高达256个混合精度专家子模型,大幅度的降低训练的算力需求,训练成本只有国外同性能大模型的9%。虽然训练成本大幅下降,但是如果要解决理工类的逻辑推理问题,依然要调用高精度的专家模型,使用高精度的算力芯片。由于子模型的参数量大降,算力需求也会几何级的下降。

在高精度算力方面,国内AI芯片的性能与英伟达GPU的差距只有2到3倍,因此对国内的大模型厂商而言,就没有必要去采购英伟达的昂贵算力芯片。况且,我国在量子芯片、光子芯片的领域已经是出于世界领先的地位,研发进展不比美国落后。

过去几年,大厂纷纷抢购英伟达的GPU芯片,是因为所有的科技大厂都想尽快拿到人工智能领域的门票,为了拿到这个门票,科技大厂花重金去抢购算力芯片,立即上马大模型训练。那个时候,只有英伟达的GPU有完善的cuda算子,可以很好的支持大模型的并行计算,因此科技大厂第一批抢购的AI芯片就是英伟达的GPU。

但是,现在大厂基本上拿出自己的大模型,也基本上把公开的互联网数据训练完了,但是并没有出现智能大爆发,仍然看不到实现AGI的迹象。现在大模型训练的方向从追求参数,逐渐转变为挑选高质量的数据进行精练,这就导致训练算力需求大幅下降,但是推理的高精度算力需求暴涨。英伟达GPU恰好是低精度训练性能极好,高精度推理性能相对而言极差。

不论是从美国通用大模型的发展趋势看,还是从中国大模型的算法创新去分析,英伟达的算力芯片都面临被替代的风险。

如果2025年openAI无法发布性能极大增强的chatGPT5,如果大模型的推理能力依然是沿着o3的路径演进,如果依然无法找到大模型的商业应用场景,那么连续3年砸了上千亿美元采购英伟达GPU的科技大厂将不再愿意大量采购英伟达GPU。即使他们继续训练大模型,也会大量采购自研的算力芯片,英伟达的GPU芯片的需求就会大幅下降,届时英伟达就会面临营收增长乏力,毛利润率和净利润大幅下降的困境。

人工智能最核心的一定是算法,其次是数据,再三才是算力。有了人工智能算法的创新,才有了人工智能这个领域爆发,要降低大模型的推理成本,算法创新依然是最重要的。现阶段大模型厂商都是从网上剽窃免费的知识训练大模型,要想进一步的提高大模型的推理性能,未来聘请大量专家编写高质量数据已经是必然选择。相对而言,并不那么重要是算力,成为了最赚钱的生意。

在发展初期,算力最赚钱是正常的,但是随着人工智能大模型的继续发展,盈利结构势必会向训练数据和算法提供厂商转移。在淘金热潮中,最赚钱的是卖铲子的商人,但是一旦淘金热下降,卖铲子的商家也是最先业绩下滑的。

如果o1的路径是成功的,1个任务带来的是几倍的算力需求,英伟达就是会越来越值钱的金铲铲。但是如果o3的路径是成功的,1个任务带来的是上千倍的算力需求,那么一定会引起算力技术革命,英伟达就会成为被抛弃的对象。在很多人眼里英伟达值10万亿美元,但是在我看来,英伟达卖铲子的好日子,显然不长了。

来源:芒格视角

相关推荐