高通自研CPU能否颠覆芯片行业格局？

摘要：不久前，于夏威夷盛大召开的一年一度骁龙峰会上，新一代自研CPU横空出世，瞬间成为全场焦点。要知道，去年才刚刚发布面向PC的第一代自研CPU，而今年便迭代出第二代专门面向智能手机的产品，其性能提升幅度高达45%，功耗降低44%，这般卓越的进步，无疑是对那些仅能实

投入天量资金，做一个没人愿做的东西，到底值不值？高通觉得值，以坚定的行动给出了自己的答案。

不久前，于夏威夷盛大召开的一年一度骁龙峰会上，新一代自研CPU横空出世，瞬间成为全场焦点。要知道，去年才刚刚发布面向PC的第一代自研CPU，而今年便迭代出第二代专门面向智能手机的产品，其性能提升幅度高达45%，功耗降低44%，这般卓越的进步，无疑是对那些仅能实现个位数提升、犹如挤牙膏般保守的芯片公司的一次有力震撼。

峰会期间，高通还别具匠心地邀请一众行业大佬参与线下直播，在外滩精心策划了一场别开生面的“挤爆牙膏”行为艺术，着实令人印象深刻。高通缘何执着于自研CPU？这一决策看似违背常理。

CPU作为一项早已高度成熟的技术领域，前有arm提供现成方案，后有诸多芯片大厂群雄割据。自研CPU不仅成本高昂，而且面临着翻车风险，投入产出比严重失衡，然而事情远非表面那般简单。

这款名为Orion的CPU，或许将成为开启高通未来n年辉煌发展阶段的关键钥匙。下文将悉心梳理高通自研CPU的发展脉络与内在本质逻辑，并深度剖析其独特的设计思路与考量因素。

从其最新发布的财报来看，高通的主营业务涵盖手机、汽车以及互联网IoT等多个领域。尽管高通并不直接涉足手机制造，却堪称手机芯片领域的巨头企业，手机业务更是其主要营收来源。本财季营收高达61亿美元，全年营收达249亿美元，占据公司总营收近2/3的份额。即便是如此庞大的业务板块，在营收不断创新高的背后，却始终存在着一块缺失的版图。

深入剖析高通的手机业务，便能发现其中包含众多细分技术板块。高通最早以通信业务起家，在CDMA、3G、4G、5G等通信技术与标准的发展进程中发挥了引领性作用。事实上，高通之名正是quality和communication两个单词的组合，其寓意为高质量通信。在众多通信技术中，基带技术一直是高通的王牌利器。

2007年，高通发布首颗骁龙芯片QSD8250时，创新性地将基带模块整合至系统级芯片Soc之中，成功摆脱了外挂基带芯片的传统模式，从而大幅节省了芯片面积与功耗，一跃成为各大手机厂商的首选芯片。此后，随着手机功能的持续升级，越来越多诸如基带的模块被整合进Soc芯片。为提升拍照摄影画质，图像信号处理单元ISP被纳入其中；而随着人工智能功能的兴起，神经网络加速单元NPU也应运而生。

对于高通骁龙芯片而言，这些年来陆续集成了40多个模块，且几乎全部为高通自研成果，诸如名为Adreno的GPU、名为Spectra的ISP以及名为hexagon的NPU等。在前些年芯片技术与智能手机蓬勃发展之际，这种自研专用模块并不断集成至芯片的模式成效显著，如同不断加固和延伸自身的长板，使高通在行业竞争中占据有利地位。

在高通公司总部，有一面闻名遐迩的发明墙，其上展示着数十年来高通积累的各类核心技术。与其说是发明墙，不如称之为坚不可摧的技术城墙更为贴切。木桶理论告诉我们，木桶的盛水量并非取决于最长的木板，而是取决于最短的那块。芯片制造亦是如此，当其他部件均采用高质量自研方案时，唯一却极为关键的瓶颈——CPU便暴露无遗。自第一代骁龙芯片起，高通多采用基于arm架构的CPU，其中部分为自研，更多则是使用arm的公版内核架构。

那么，何为公版架构呢？简单来说，就是arm自行设计完成、可供芯片厂商直接使用的架构。例如，上一代骁龙芯片采用的便是armCortexX1、CortexA78和CortexA55三种不同的公版内核。采用公版架构的最大优势在于省时、省力、省成本。就如同我们在商场选购衣服，只需挑选款式与尺码，无需自行裁剪布料、一针一线缝制。arm提供的公版架构经过了充分设计与大量优化，芯片厂商购买后只需选择核心数、缓存容量等基础配置便可投入使用，能够有效缩短芯片设计与验证周期，同时保障性能，使产品迅速推向市场实现盈利，这也是绝大多数芯片厂商的共同选择，高通自然也不例外。

有了公版架构的坚实支撑，高通得以将更多精力与资源投入到自研GPU、ISP和NPU等模块的研发之中。然而，当这些自研模块逐渐成长为木桶的长板时，采用公版armCPU却反而沦为相对短板。其原因是多方面的。其一，arm对公版架构的优化并非均衡全面，可能在高性能大核方面倾注更多精力，而对中小核的优化则相对不足，仅能满足基本需求，这使得使用这些能效核的客户不得不承受性能与功耗方面的不如意。其二，公版架构旨在兼顾大多数客户需求，难以针对某一特定厂商芯片进行个性化定制。例如，在当下AI热潮中，若厂商希望在CPU中增加额外AI算力，或赋予其更出色的GPU和NPU调度能力，公版架构则显得力不从心。

解决之道其实并不复杂，那便是毅然抛弃公版架构，全力设计专属于自身的CPU架构。这就如同我们虽可在商场购买成品西装，但定制一套来自伦敦萨维尔街的西装无疑更贴合自身需求。因此，回归自研CPU架构，补齐手机芯片中这最后也是最为关键的一块拼图，成为高通当下最为紧迫且关键的任务。

尽管高通骁龙芯片大多采用arm公版设计，但实际上高通在自研CPU领域的探索从未停歇。从2008年的Scorpion架构，到2012年与2015年的自研架构，均是基于arm指令集的探索尝试。由此可见，高通内心深处自研CPU内核的热情之火从未熄灭，同时也积累了一定的技术底蕴与专业团队。而真正的转折点出现在2021年1月对Nova公司的收购。彼时，这家成立尚不足两年的公司虽资历尚浅，但其三位创始人皆为业界顶尖大牛。尤其是杰拉德·威廉姆斯三世，他曾在arm工作长达12年，之后又在苹果担任芯片首席架构师9年有余，主导了苹果所有CPU和Soc芯片的研发工作，包括智能手机的a系列处理器以及Mac的M1全系列处理器。其卓越成就令人敬仰，大家不妨前往领英页面深入了解这位大神的辉煌历程。

此次14亿美元的收购对于高通而言堪称神来之笔。在大神的助力下，高通自研CPU的技术力量得以全面激活，技术路线与方向也更加明晰，我将其总结为高性能、高能效、高扩展的“三高”策略。自此次收购之后，高通明显加快了自研CPU的研发进程，并迅速推出重磅成果。去年此时的骁龙峰会上，高通正式发布名为骁龙xelite的PC平台，其中包含12颗名为Orion的自研CPU内核。令人意想不到的是，这颗芯片并非应用于手机领域，而是一款专为笔记本打造的高性能、低功耗CPU，能够流畅运行Windows各类软件。

一年之后，在今年的骁龙峰会上，高通再度发力，发布了第二代Orin自研CPU，并首次将其应用于自家的智能手机芯片领域。虽名为第二代，但对于骁龙手机芯片而言却是具有里程碑意义的第一代，高通还特意为其赋予了一个响亮的名字——Snapdragoneightelite，中文名为骁龙8至尊版。观看峰会直播时，我不禁感慨，对于芯片工程师而言，每一颗芯片都如同自己精心培育的孩子。而高通对Orin这一“孩子”显然格外偏爱，不仅赋予其独特的名字，还在技术上精心雕琢。接下来，我将从CPU设计的专业角度深入解析这颗自研内核的独特魅力。

如今，距离骁龙8至尊版发布已有一段时间，小米、荣耀、一加、IQOO等众多手机厂商纷纷推出搭载该芯片的机型。您或许已看过相关跑分与测试数据，其性能与能效表现均十分出色。我们暂且抛开跑分数据，从CPU设计的深度视角探究一下，为何采用第二代自研Orin内核后能取得如此卓越的效果。在今年的hotCHIPS大会上，杰拉德·威廉姆斯大神代表高通详细介绍了Orin的内核架构。尽管整体是基于骁龙x的第一代Orin进行的宏观阐述，但却首次披露了许多Orin设计过程中的精妙思路与方向，极具学习与借鉴价值。

首先，这颗CPU的核心设计理念聚焦于高性能、高能效、高扩展的“三高”目标。高性能与高能效易于理解，即性能要远超公版架构，同时功耗要尽可能降低，以此延长手机续航时间。那么，高扩展又作何解呢？既然内核名为Orion，其愿景便是凭借一套底层架构实现对多种不同使用场景的适配，无论是PC、手机，乃至汽车领域。为达成这一目标，在芯片设计之初便需预留充足的灵活度，通过巧妙的排列组合与参数配置，实现对各类场景的精准适配。具体到CPU设计，灵活度主要体现在两个关键方面：内核配置的灵活性以及多个内核组合时的灵活性。

先看内核架构。通常而言，CPU微架构需完成四个主要操作，即取指、解码、执行与写回。CPU从内存中读取一条指令，通过解码器将其分解为若干部分，并精准识别该指令是执行算术运算、跳转运算还是其他操作。解码后的指令与数据随后被送至执行阶段，执行完毕的结果最终被写回寄存器或存储器，如此循环往复，直至整个程序执行完毕。一般将这四个操作划分为两个部分，负责取指和解码的电路在CPU微架构中称为前端，而实现执行和写回的结构则称为后端。前端的核心使命在于全力为后端提供充足的指令与数据“弹药”，确保后端执行单元始终保持满负荷运转，从而最大程度减少空转带来的性能与功耗损失。因此，前端需尽可能高效地从内存中获取指令，并将其解码为后端能够直接执行的微操作。

由于CPU运行速度远超从内存读取指令和数据的速度，为临时存储这些指令和数据，指令缓存和数据缓存应运而生，也就是常说的一级iCACHE和一级dCACHE。据我所查资料显示，在Orion内核中，这两个缓存的容量颇为可观。一级指令缓存最大可达192KB，是蓝厂Mediatek的3倍之多，且大于Z4架构；一级数据缓存高达96KB，是蓝厂Mediatek性能核Redmimoteseed的两倍。如此大容量的缓存设定了缓存上限，同时可根据不同应用需求灵活调整缓存大小，以实现更优的适配效果。

通常，伴随缓存还存在几个核心部件，分别是读取写回单元、分支预测单元以及预取单元。Orion的读取写回单元设计极具灵活性，能够支持4条指令流水线中的各种指令读写任意组合。分支预测单元的作用在于，当程序出现分支时，提前预判程序大概率的执行分支路径，并提前获取对应的指令。预取单元则负责预测后续可能用到的数据，并提前从内存中取出存入缓存。分支预测和预取这两个模块对于扩展性至关重要，因为不同应用场景下指令序列差异显著，优化方式也不尽相同。值得注意的是，高通对这两个模块的具体实验细节并未公布，想必这正是其核心竞争力所在。

再看内核的后端，即执行单元部分。其唯一使命便是高速运算，越快越好。当今处理器的后端设计极为复杂，例如对乱序多发射的支持，需要对指令进行重新排列与提交。通常，能够支持乱序执行的数量越多，内核性能便越高。在Orion内核中，重排缓冲区（Rob）的大小超过了650条。这种超大IOB的设计风格无疑彰显了杰拉德大神的精湛技艺，同时也充分体现了对扩展性的深度考量。

说完内核本身，内核之间的扩展能力同样不容忽视，这主要体现在二级缓存的设计上，也是Orion多核结构的一大显著特色。一般情况下，多个内核组合时，会各自拥有专属的二级缓存以及一个共享的三级缓存。然而，在Orion架构中，多个内核共享一个超大的二级缓存，其容量可达12兆，甚至超越了三级缓存。如此设计的最大优势在于速度，能够将更多数据存储于缓存之中，减少从遥远内存读写数据的时间消耗。

据高通当时公布的数据，若在一级缓存中未找到数据，仅需17个周期便可完成对二级缓存的访问，耗时仅几纳秒。超大二级缓存还带来了出色的灵活性，针对不同应用，可对二级缓存大小进行裁剪或调整共享该缓存的内核数量。例如，在PC平台骁龙xelite上，采用四个内核共享一个二级缓存的配置；而在本次发布的手机平台骁龙8至尊版上，则采用两个超级内核共享12兆二级缓存以及六个性能内核共享12兆二级缓存的配置方式。

由此可见，其配置灵活多变，但这种设计对各个内核一致性处理提出了极高要求，这又是高通未公布设计细节的核心竞争力所在。总之，这些在芯片架构层面的精心设计充分保障了OrinCPU的灵活性与可扩展性，使其经过适当配置后能够广泛应用于多个平台与场景。再加上3纳米工艺的强力加持，这颗CPU的性能与功耗表现堪称卓越。例如，本次的超大核最高频率可达惊人的4.32G赫兹，相比上一代提升超过1G赫兹，相当于每秒多运算10亿次。单核和多核性能均提升45%，也难怪高通在之前活动中宣称此次“挤爆了牙膏”。

有了自研CPU的深度优化，高通毅然摒弃了之前的能效核。原因在于，这一代猎户座CPU的能耗大幅降低44%，从性能功耗比的角度来看，在相同功耗条件下能够完成更多运算，使得Soc芯片的整体能耗降低27%，能效核的优势不再明显，被果断舍弃，这也充分彰显了量体裁衣、量身定制研发方法的巨大优势，有力证明了高通自研CPU战略的正确性。

高通不惜重金投入CPU研发，除了弥补短板之外，更是看中了CPU在端侧人工智能领域的关键作用。一方面，如前文所述，CPU算力得以显著提升；另一方面，或许更为重要的是，CPU能够有效带动其他模块协同发挥更优效果。它宛如一个乐团的指挥家，将一首乐曲巧妙分配给各有所长的乐手。例如，GPU更擅长游戏与AI算力长时间输出，NPU更专注于语言模型的低功耗推理，ISP则更精于影像的AI增强。以往各模块各自为战，如今在CPU的统筹协调下，能够实现更高效的协作。

事实上，高通CEO安蒙始终对端侧AI发展前景充满信心。所谓端侧，是相对于我们常说的云端而言，主要指智能手机或物联网等依靠电池供电、算力资源相对有限的设备。安蒙在去年相关峰会上曾大胆预测，端侧AI将成为主流趋势。然而，彼时大模型刚刚兴起，云端数据中心凭借强大算力的“暴力美学”占据主流地位，端侧AI并未得到足够重视。

但时过境迁，随着大模型发展至今，训练环节虽仍主要依托云端，但实际的推理与部署更多地发生在端侧。例如，今年的骁龙峰会上，微软、Meta和openAI的CEO作为大型互联网、云计算和大模型公司的代表受邀出席，他们不约而同地将目光聚焦于端侧AI，这一现象仿佛打破了次元壁，也充分表明基于智能手机的端侧人工智能已获得行业广泛认同。

可以清晰地看到，高通的AI战略独具慧眼，并未随波逐流地卷入绝大多数公司拼算力的同质化竞争，而是巧妙结合自身优势，开辟出一条独具特色的创新之路。切莫以为自研CPU带来的想象空间仅止于此，Orion架构主打多领域扩展，本次高通还发布了两个汽车芯片平台，一个是面向智能座舱的骁龙座舱至尊版平台，另一个是面向智能驾驶的Snapdragonride至尊版平台。而这两个平台的核心均基于OrinCPU，并且针对汽车应用场景进行了专门优化。

或许很多人并不知晓，高通在汽车芯片领域同样处于顶尖地位。从之前的骁龙8155到如今的骁龙8295，皆是智能座舱芯片领域的标杆之作，以至于许多消费者在购车时已将是否搭载高通8155芯片作为衡量座舱智能化程度的重要标准之一。事实上，汽车是人工智能落地应用前景最为明确的领域之一，也是安蒙端侧AI远景规划中极为关键的一环。汽车的智能化涵盖智能座舱与智能驾驶两个重要方面，当前绝大多数汽车采用座舱与智驾分离的设计架构，但未来发展趋势大概率是二者深度融合。

唯有智能驾驶与座舱实现无缝衔接，才能更好地达成智能汽车与人的高效交互。特别是在复杂场景下，对CPU的算力、实时性、安全性等方面特别是在复杂场景下，对CPU的算力、实时性、安全性等方面提出了严苛要求。有了OrionCPU的强力加持，新汽车芯片平台的CPU性能提升了3倍，面向多模态AI的NPU算力提升了12倍，能够支持40多个多模态传感器，可实现低延迟、高精度、端到端的Transformer计算加速，仅用一颗芯片便能够同时满足智能座舱和智能驾驶两大关键需求。

再结合高通自身构建的强大生态体系，车企能够更迅速地向中央超算和集中式的汽车电子电气架构迈进。高通已与谷歌携手合作，共同开发基于安卓的智能座舱标准化平台，并将谷歌AI技术部署到汽车之中，大幅提升了软件开发效率。奔驰和理想等知名车企也已宣布将搭载骁龙至尊版汽车平台。

不妨大胆畅想一下，未来汽车、手机、电脑均基于相同的芯片架构，这将真正打破生态壁垒的限制，实现数据乃至算力的无缝共享。例如，在高阶自动驾驶场景中，部分算力或许可由手机提供，这无疑将催生出更多新奇且富有创意的应用场景。

在此次骁龙峰会上，高通CEO安蒙还特意邀请杰拉德大神登台，分享自研CPU的艰辛历程与心路感悟，整个过程真挚而动人。其中有两点让我感触颇深。其一，杰拉德大神表示团队在不断提升自研CPU的性能基准，并且会持续不懈地突破自我，勇攀技术高峰。这对于广大消费者而言无疑是个利好消息，正因有了这些勇于创新、敢于突破的“搅局者”加入，我们才得以使用上性能更卓越、功耗更低的手机与笔记本电脑，让AI技术在不知不觉中深度融入并积极影响我们的日常生活。其二，安蒙对大神言论予以积极呼应，并热情地呼吁大家提前预定明年骁龙峰会的机票，只因明年的OrinCPU将会带来更为震撼的创新与突破，令人满怀期待。

文本来源@老石谈芯的视频内容

来源：贾老师说的不假

标签： cpu 芯片高通

本文地址：https://news.43u.com.cn/a/84966.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!