摘要:不久前,于夏威夷盛大召开的一年一度骁龙峰会上,新一代自研CPU横空出世,瞬间成为全场焦点。要知道,去年才刚刚发布面向PC的第一代自研CPU,而今年便迭代出第二代专门面向智能手机的产品,其性能提升幅度高达45%,功耗降低44%,这般卓越的进步,无疑是对那些仅能实
投入天量资金,做一个没人愿做的东西,到底值不值?高通觉得值,以坚定的行动给出了自己的答案。
不久前,于夏威夷盛大召开的一年一度骁龙峰会上,新一代自研CPU横空出世,瞬间成为全场焦点。要知道,去年才刚刚发布面向PC的第一代自研CPU,而今年便迭代出第二代专门面向智能手机的产品,其性能提升幅度高达45%,功耗降低44%,这般卓越的进步,无疑是对那些仅能实现个位数提升、犹如挤牙膏般保守的芯片公司的一次有力震撼。
峰会期间,高通还别具匠心地邀请一众行业大佬参与线下直播,在外滩精心策划了一场别开生面的“挤爆牙膏”行为艺术,着实令人印象深刻。高通缘何执着于自研CPU?这一决策看似违背常理。
CPU作为一项早已高度成熟的技术领域,前有arm提供现成方案,后有诸多芯片大厂群雄割据。自研CPU不仅成本高昂,而且面临着翻车风险,投入产出比严重失衡,然而事情远非表面那般简单。
这款名为Orion的CPU,或许将成为开启高通未来n年辉煌发展阶段的关键钥匙。下文将悉心梳理高通自研CPU的发展脉络与内在本质逻辑,并深度剖析其独特的设计思路与考量因素。
从其最新发布的财报来看,高通的主营业务涵盖手机、汽车以及互联网IoT等多个领域。尽管高通并不直接涉足手机制造,却堪称手机芯片领域的巨头企业,手机业务更是其主要营收来源。本财季营收高达61亿美元,全年营收达249亿美元,占据公司总营收近2/3的份额。即便是如此庞大的业务板块,在营收不断创新高的背后,却始终存在着一块缺失的版图。
深入剖析高通的手机业务,便能发现其中包含众多细分技术板块。高通最早以通信业务起家,在CDMA、3G、4G、5G等通信技术与标准的发展进程中发挥了引领性作用。事实上,高通之名正是quality和communication两个单词的组合,其寓意为高质量通信。在众多通信技术中,基带技术一直是高通的王牌利器。
2007年,高通发布首颗骁龙芯片QSD8250时,创新性地将基带模块整合至系统级芯片Soc之中,成功摆脱了外挂基带芯片的传统模式,从而大幅节省了芯片面积与功耗,一跃成为各大手机厂商的首选芯片。此后,随着手机功能的持续升级,越来越多诸如基带的模块被整合进Soc芯片。为提升拍照摄影画质,图像信号处理单元ISP被纳入其中;而随着人工智能功能的兴起,神经网络加速单元NPU也应运而生。
对于高通骁龙芯片而言,这些年来陆续集成了40多个模块,且几乎全部为高通自研成果,诸如名为Adreno的GPU、名为Spectra的ISP以及名为hexagon的NPU等。在前些年芯片技术与智能手机蓬勃发展之际,这种自研专用模块并不断集成至芯片的模式成效显著,如同不断加固和延伸自身的长板,使高通在行业竞争中占据有利地位。
在高通公司总部,有一面闻名遐迩的发明墙,其上展示着数十年来高通积累的各类核心技术。与其说是发明墙,不如称之为坚不可摧的技术城墙更为贴切。木桶理论告诉我们,木桶的盛水量并非取决于最长的木板,而是取决于最短的那块。芯片制造亦是如此,当其他部件均采用高质量自研方案时,唯一却极为关键的瓶颈——CPU便暴露无遗。自第一代骁龙芯片起,高通多采用基于arm架构的CPU,其中部分为自研,更多则是使用arm的公版内核架构。
那么,何为公版架构呢?简单来说,就是arm自行设计完成、可供芯片厂商直接使用的架构。例如,上一代骁龙芯片采用的便是armCortexX1、CortexA78和CortexA55三种不同的公版内核。采用公版架构的最大优势在于省时、省力、省成本。就如同我们在商场选购衣服,只需挑选款式与尺码,无需自行裁剪布料、一针一线缝制。arm提供的公版架构经过了充分设计与大量优化,芯片厂商购买后只需选择核心数、缓存容量等基础配置便可投入使用,能够有效缩短芯片设计与验证周期,同时保障性能,使产品迅速推向市场实现盈利,这也是绝大多数芯片厂商的共同选择,高通自然也不例外。
有了公版架构的坚实支撑,高通得以将更多精力与资源投入到自研GPU、ISP和NPU等模块的研发之中。然而,当这些自研模块逐渐成长为木桶的长板时,采用公版armCPU却反而沦为相对短板。其原因是多方面的。其一,arm对公版架构的优化并非均衡全面,可能在高性能大核方面倾注更多精力,而对中小核的优化则相对不足,仅能满足基本需求,这使得使用这些能效核的客户不得不承受性能与功耗方面的不如意。其二,公版架构旨在兼顾大多数客户需求,难以针对某一特定厂商芯片进行个性化定制。例如,在当下AI热潮中,若厂商希望在CPU中增加额外AI算力,或赋予其更出色的GPU和NPU调度能力,公版架构则显得力不从心。
解决之道其实并不复杂,那便是毅然抛弃公版架构,全力设计专属于自身的CPU架构。这就如同我们虽可在商场购买成品西装,但定制一套来自伦敦萨维尔街的西装无疑更贴合自身需求。因此,回归自研CPU架构,补齐手机芯片中这最后也是最为关键的一块拼图,成为高通当下最为紧迫且关键的任务。
尽管高通骁龙芯片大多采用arm公版设计,但实际上高通在自研CPU领域的探索从未停歇。从2008年的Scorpion架构,到2012年与2015年的自研架构,均是基于arm指令集的探索尝试。由此可见,高通内心深处自研CPU内核的热情之火从未熄灭,同时也积累了一定的技术底蕴与专业团队。而真正的转折点出现在2021年1月对Nova公司的收购。彼时,这家成立尚不足两年的公司虽资历尚浅,但其三位创始人皆为业界顶尖大牛。尤其是杰拉德·威廉姆斯三世,他曾在arm工作长达12年,之后又在苹果担任芯片首席架构师9年有余,主导了苹果所有CPU和Soc芯片的研发工作,包括智能手机的a系列处理器以及Mac的M1全系列处理器。其卓越成就令人敬仰,大家不妨前往领英页面深入了解这位大神的辉煌历程。
此次14亿美元的收购对于高通而言堪称神来之笔。在大神的助力下,高通自研CPU的技术力量得以全面激活,技术路线与方向也更加明晰,我将其总结为高性能、高能效、高扩展的“三高”策略。自此次收购之后,高通明显加快了自研CPU的研发进程,并迅速推出重磅成果。去年此时的骁龙峰会上,高通正式发布名为骁龙xelite的PC平台,其中包含12颗名为Orion的自研CPU内核。令人意想不到的是,这颗芯片并非应用于手机领域,而是一款专为笔记本打造的高性能、低功耗CPU,能够流畅运行Windows各类软件。
一年之后,在今年的骁龙峰会上,高通再度发力,发布了第二代Orin自研CPU,并首次将其应用于自家的智能手机芯片领域。虽名为第二代,但对于骁龙手机芯片而言却是具有里程碑意义的第一代,高通还特意为其赋予了一个响亮的名字——Snapdragoneightelite,中文名为骁龙8至尊版。观看峰会直播时,我不禁感慨,对于芯片工程师而言,每一颗芯片都如同自己精心培育的孩子。而高通对Orin这一“孩子”显然格外偏爱,不仅赋予其独特的名字,还在技术上精心雕琢。接下来,我将从CPU设计的专业角度深入解析这颗自研内核的独特魅力。
如今,距离骁龙8至尊版发布已有一段时间,小米、荣耀、一加、IQOO等众多手机厂商纷纷推出搭载该芯片的机型。您或许已看过相关跑分与测试数据,其性能与能效表现均十分出色。我们暂且抛开跑分数据,从CPU设计的深度视角探究一下,为何采用第二代自研Orin内核后能取得如此卓越的效果。在今年的hotCHIPS大会上,杰拉德·威廉姆斯大神代表高通详细介绍了Orin的内核架构。尽管整体是基于骁龙x的第一代Orin进行的宏观阐述,但却首次披露了许多Orin设计过程中的精妙思路与方向,极具学习与借鉴价值。
首先,这颗CPU的核心设计理念聚焦于高性能、高能效、高扩展的“三高”目标。高性能与高能效易于理解,即性能要远超公版架构,同时功耗要尽可能降低,以此延长手机续航时间。那么,高扩展又作何解呢?既然内核名为Orion,其愿景便是凭借一套底层架构实现对多种不同使用场景的适配,无论是PC、手机,乃至汽车领域。为达成这一目标,在芯片设计之初便需预留充足的灵活度,通过巧妙的排列组合与参数配置,实现对各类场景的精准适配。具体到CPU设计,灵活度主要体现在两个关键方面:内核配置的灵活性以及多个内核组合时的灵活性。
先看内核架构。通常而言,CPU微架构需完成四个主要操作,即取指、解码、执行与写回。CPU从内存中读取一条指令,通过解码器将其分解为若干部分,并精准识别该指令是执行算术运算、跳转运算还是其他操作。解码后的指令与数据随后被送至执行阶段,执行完毕的结果最终被写回寄存器或存储器,如此循环往复,直至整个程序执行完毕。一般将这四个操作划分为两个部分,负责取指和解码的电路在CPU微架构中称为前端,而实现执行和写回的结构则称为后端。前端的核心使命在于全力为后端提供充足的指令与数据“弹药”,确保后端执行单元始终保持满负荷运转,从而最大程度减少空转带来的性能与功耗损失。因此,前端需尽可能高效地从内存中获取指令,并将其解码为后端能够直接执行的微操作。
由于CPU运行速度远超从内存读取指令和数据的速度,为临时存储这些指令和数据,指令缓存和数据缓存应运而生,也就是常说的一级iCACHE和一级dCACHE。据我所查资料显示,在Orion内核中,这两个缓存的容量颇为可观。一级指令缓存最大可达192KB,是蓝厂Mediatek的3倍之多,且大于Z4架构;一级数据缓存高达96KB,是蓝厂Mediatek性能核Redmimoteseed的两倍。如此大容量的缓存设定了缓存上限,同时可根据不同应用需求灵活调整缓存大小,以实现更优的适配效果。
通常,伴随缓存还存在几个核心部件,分别是读取写回单元、分支预测单元以及预取单元。Orion的读取写回单元设计极具灵活性,能够支持4条指令流水线中的各种指令读写任意组合。分支预测单元的作用在于,当程序出现分支时,提前预判程序大概率的执行分支路径,并提前获取对应的指令。预取单元则负责预测后续可能用到的数据,并提前从内存中取出存入缓存。分支预测和预取这两个模块对于扩展性至关重要,因为不同应用场景下指令序列差异显著,优化方式也不尽相同。值得注意的是,高通对这两个模块的具体实验细节并未公布,想必这正是其核心竞争力所在。
再看内核的后端,即执行单元部分。其唯一使命便是高速运算,越快越好。当今处理器的后端设计极为复杂,例如对乱序多发射的支持,需要对指令进行重新排列与提交。通常,能够支持乱序执行的数量越多,内核性能便越高。在Orion内核中,重排缓冲区(Rob)的大小超过了650条。这种超大IOB的设计风格无疑彰显了杰拉德大神的精湛技艺,同时也充分体现了对扩展性的深度考量。
说完内核本身,内核之间的扩展能力同样不容忽视,这主要体现在二级缓存的设计上,也是Orion多核结构的一大显著特色。一般情况下,多个内核组合时,会各自拥有专属的二级缓存以及一个共享的三级缓存。然而,在Orion架构中,多个内核共享一个超大的二级缓存,其容量可达12兆,甚至超越了三级缓存。如此设计的最大优势在于速度,能够将更多数据存储于缓存之中,减少从遥远内存读写数据的时间消耗。
据高通当时公布的数据,若在一级缓存中未找到数据,仅需17个周期便可完成对二级缓存的访问,耗时仅几纳秒。超大二级缓存还带来了出色的灵活性,针对不同应用,可对二级缓存大小进行裁剪或调整共享该缓存的内核数量。例如,在PC平台骁龙xelite上,采用四个内核共享一个二级缓存的配置;而在本次发布的手机平台骁龙8至尊版上,则采用两个超级内核共享12兆二级缓存以及六个性能内核共享12兆二级缓存的配置方式。
由此可见,其配置灵活多变,但这种设计对各个内核一致性处理提出了极高要求,这又是高通未公布设计细节的核心竞争力所在。总之,这些在芯片架构层面的精心设计充分保障了OrinCPU的灵活性与可扩展性,使其经过适当配置后能够广泛应用于多个平台与场景。再加上3纳米工艺的强力加持,这颗CPU的性能与功耗表现堪称卓越。例如,本次的超大核最高频率可达惊人的4.32G赫兹,相比上一代提升超过1G赫兹,相当于每秒多运算10亿次。单核和多核性能均提升45%,也难怪高通在之前活动中宣称此次“挤爆了牙膏”。
有了自研CPU的深度优化,高通毅然摒弃了之前的能效核。原因在于,这一代猎户座CPU的能耗大幅降低44%,从性能功耗比的角度来看,在相同功耗条件下能够完成更多运算,使得Soc芯片的整体能耗降低27%,能效核的优势不再明显,被果断舍弃,这也充分彰显了量体裁衣、量身定制研发方法的巨大优势,有力证明了高通自研CPU战略的正确性。
高通不惜重金投入CPU研发,除了弥补短板之外,更是看中了CPU在端侧人工智能领域的关键作用。一方面,如前文所述,CPU算力得以显著提升;另一方面,或许更为重要的是,CPU能够有效带动其他模块协同发挥更优效果。它宛如一个乐团的指挥家,将一首乐曲巧妙分配给各有所长的乐手。例如,GPU更擅长游戏与AI算力长时间输出,NPU更专注于语言模型的低功耗推理,ISP则更精于影像的AI增强。以往各模块各自为战,如今在CPU的统筹协调下,能够实现更高效的协作。
事实上,高通CEO安蒙始终对端侧AI发展前景充满信心。所谓端侧,是相对于我们常说的云端而言,主要指智能手机或物联网等依靠电池供电、算力资源相对有限的设备。安蒙在去年相关峰会上曾大胆预测,端侧AI将成为主流趋势。然而,彼时大模型刚刚兴起,云端数据中心凭借强大算力的“暴力美学”占据主流地位,端侧AI并未得到足够重视。
但时过境迁,随着大模型发展至今,训练环节虽仍主要依托云端,但实际的推理与部署更多地发生在端侧。例如,今年的骁龙峰会上,微软、Meta和openAI的CEO作为大型互联网、云计算和大模型公司的代表受邀出席,他们不约而同地将目光聚焦于端侧AI,这一现象仿佛打破了次元壁,也充分表明基于智能手机的端侧人工智能已获得行业广泛认同。
可以清晰地看到,高通的AI战略独具慧眼,并未随波逐流地卷入绝大多数公司拼算力的同质化竞争,而是巧妙结合自身优势,开辟出一条独具特色的创新之路。切莫以为自研CPU带来的想象空间仅止于此,Orion架构主打多领域扩展,本次高通还发布了两个汽车芯片平台,一个是面向智能座舱的骁龙座舱至尊版平台,另一个是面向智能驾驶的Snapdragonride至尊版平台。而这两个平台的核心均基于OrinCPU,并且针对汽车应用场景进行了专门优化。
或许很多人并不知晓,高通在汽车芯片领域同样处于顶尖地位。从之前的骁龙8155到如今的骁龙8295,皆是智能座舱芯片领域的标杆之作,以至于许多消费者在购车时已将是否搭载高通8155芯片作为衡量座舱智能化程度的重要标准之一。事实上,汽车是人工智能落地应用前景最为明确的领域之一,也是安蒙端侧AI远景规划中极为关键的一环。汽车的智能化涵盖智能座舱与智能驾驶两个重要方面,当前绝大多数汽车采用座舱与智驾分离的设计架构,但未来发展趋势大概率是二者深度融合。
唯有智能驾驶与座舱实现无缝衔接,才能更好地达成智能汽车与人的高效交互。特别是在复杂场景下,对CPU的算力、实时性、安全性等方面特别是在复杂场景下,对CPU的算力、实时性、安全性等方面提出了严苛要求。有了OrionCPU的强力加持,新汽车芯片平台的CPU性能提升了3倍,面向多模态AI的NPU算力提升了12倍,能够支持40多个多模态传感器,可实现低延迟、高精度、端到端的Transformer计算加速,仅用一颗芯片便能够同时满足智能座舱和智能驾驶两大关键需求。
再结合高通自身构建的强大生态体系,车企能够更迅速地向中央超算和集中式的汽车电子电气架构迈进。高通已与谷歌携手合作,共同开发基于安卓的智能座舱标准化平台,并将谷歌AI技术部署到汽车之中,大幅提升了软件开发效率。奔驰和理想等知名车企也已宣布将搭载骁龙至尊版汽车平台。
不妨大胆畅想一下,未来汽车、手机、电脑均基于相同的芯片架构,这将真正打破生态壁垒的限制,实现数据乃至算力的无缝共享。例如,在高阶自动驾驶场景中,部分算力或许可由手机提供,这无疑将催生出更多新奇且富有创意的应用场景。
在此次骁龙峰会上,高通CEO安蒙还特意邀请杰拉德大神登台,分享自研CPU的艰辛历程与心路感悟,整个过程真挚而动人。其中有两点让我感触颇深。其一,杰拉德大神表示团队在不断提升自研CPU的性能基准,并且会持续不懈地突破自我,勇攀技术高峰。这对于广大消费者而言无疑是个利好消息,正因有了这些勇于创新、敢于突破的“搅局者”加入,我们才得以使用上性能更卓越、功耗更低的手机与笔记本电脑,让AI技术在不知不觉中深度融入并积极影响我们的日常生活。其二,安蒙对大神言论予以积极呼应,并热情地呼吁大家提前预定明年骁龙峰会的机票,只因明年的OrinCPU将会带来更为震撼的创新与突破,令人满怀期待。
文本来源@老石谈芯的视频内容
来源:贾老师说的不假