摘要:为了回答这些问题,我多花了几天时间,深度整合了我能找到的所有资料,也和小米芯片团队进行了几次深度沟通,获得了很多一手资料。我会以这个账号前所未有的深度帮你详细拆解和分析芯片开发的各个流程和细节,并整合成这篇万字长文(视频版本已发抖音,欢迎关注),如果你能看完,
今天我们聊聊小米玄戒芯片。
小米芯片到底是不是自研、为什么小米能做3纳米芯片、设计开发一颗玄戒O1级别的手机旗舰SoC到底有多难、玄戒O1的架构设计和技术到底是什么水平、小米造芯的意义和未来的发展会有哪些?
为了回答这些问题,我多花了几天时间,深度整合了我能找到的所有资料,也和小米芯片团队进行了几次深度沟通,获得了很多一手资料。我会以这个账号前所未有的深度帮你详细拆解和分析芯片开发的各个流程和细节,并整合成这篇万字长文(视频版本已发抖音,欢迎关注),如果你能看完,肯定会对你有所帮助。文章主要章节在下面:
第一章:玄戒O1芯片到底是不是自研?
第二章:为什么小米能做3纳米芯片?
第三章:设计一颗手机SoC到底有多难?
第四章:玄戒O1架构深度解析
第五章:小米造芯之路,才刚刚开始
玄戒O1天生自带流量,第一波流量,就是引发了业界对它「自研」程度的广泛讨论。
之所以人们会对这颗芯片的自研程度如此关注,主要是因为大家看到玄戒O1的CPU采用了Arm的CPU和GPU内核。特别是发布会第二天Arm在官网发了一篇新闻稿、但没过多久就删了,说玄戒O1是基于Arm计算平台构建。很多人认为这篇被撤的稿子,就是玄戒O1并非自研的「石锤」。
但事实到底是否真的如此呢?
这里就需要先详细介绍一下一颗芯片的设计方法、以及Arm的授权模式。如果你对这些内容比较了解,可以直接跳到这部分的结尾看结论。
总的来说,设计一颗芯片的方法可以按难易程度的由大到小分成四个级别。第一级就是直接从晶体管入手,把芯片上所有的晶体管以及他们之间的连接方法都画在纸上。事实上,几十年前芯片刚出现的时候就是这么干的。当时一个芯片上只有几百上千个晶体管,还属于人力所能及的范畴。当然,这种方法的自研程度是最高的,但现在已经没有公司这么做了。
原因就是,随着芯片越来越复杂,比如玄戒O1集成了190亿个晶体管,用手一个一个画是绝对不可能了。所以进化到第二个层级,就是按模块设计。这些模块可大可小,小到储存单个信号的寄存器、做与或非这些逻辑运算的逻辑门,大到做加减乘除的运算器、存储更多数据和电路状态的存储器,以及控制电路行为的控制器,等等。
这就像盖房子的时候不用再去砍树敲石头或者烧土做砖了,而是买现成的建材回来直接施工。也像做饭的时候不用自己养鸡下蛋或者自己种地,而是直接去超市买食材就可以。
这些不同功能的模块、建材、食材,在芯片领域有一个专门的术语叫IP。就像建材和食材的出现提升了盖房子和做饭的效率、IP的出现让芯片的开发效率得到了很大提升、难度也降低了不少,因为各家芯片公司不用从头造轮子了,这也直接催生了像Arm这样专门做芯片IP的公司的出现和兴起。
这种用IP搭积木设计芯片的方法算不算自研呢?那肯定是自研的,而且现在所有、注意是所有的芯片设计公司都会使用公版IP+自研IP的芯片设计方法。这种方法的自研程度更多体现在对IP的选取、配置、集成和优化,以及整颗芯片的架构设计上。虽然纯自研程度低了,但芯片开发效率得到显著提升,而且完全不意味着技术含量更低。反而由于系统更复杂,会做出技术含量更高的芯片。
为了进一步提升芯片开发效率,人们又想出来第三个层级,叫做系统定制。也就是可以把很多个常用的IP组合在一起组成可大可小的子系统,然后基于这个子系统去开发和集成其他的功能单元,最终组成一个完整芯片。有点类似你做小龙虾的时候让摊主把龙虾处理好,你回家直接加上秘制调料做。这种方法的自研程度主要体现在对其他子系统的研发深度定制,以及芯片整体架构的设计和优化。
当然,永远不要低估人们偷懒的意愿,还有一种终极的芯片开发方法,就是完全外包,专业叫法是系统解决方案。我当年在蓝厂就是干这个的,甲方给个需求,我们就帮他们从头到尾定制一个完整的芯片方案,真正做到开箱即用、拎包入住。很多人说的什么精装修和预制菜,就是这个级别。
关于Arm这家总部位于英国的日本公司,我之前文章里详细介绍过。它当年创造了一个很独特的盈利模式,那就是不设计完整芯片本身,而是专注在IP的设计和授权。总体来说,Arm有四种授权模式,分别是架构授权、IP授权、技术订阅和计算子系统授权。
架构授权是指,客户可以得到特定版本的Arm指令集架构 (ISA) 授权,这意味着客户可以自行设计和开发完全定制化的处理器核心,而不必使用Arm预先设计好的 Cortex 或 Neoverse 等核心。这种方法的自由度和灵活度最高,但需要极其强大的研发能力、也伴随着极高的研发成本和风险。现在全球的芯片公司只有苹果、高通、英伟达和华为海思等极少数几家是采用的这种授权方法,你可能听说过的「自研内核」就是这个级别的授权。
IP授权是指客户可以直接买Arm设计好的IP模块,比如各种CPU和GPU内核,并且可以对这些内核做一些个性化的配置,是不是听起来很耳熟,其实这就是对应着前面说的IP级别的芯片设计。
近几年Arm推出了一个新的授权模式,叫灵活订阅。客户通过支付年度订阅费,可以访问 Arm IP 产品组合中的绝大部分IP,类似Costco和山姆的会员制,你先成为会员,就能进超市任意挑选了,还能试用试吃,等出门再付钱。比较适合初创公司、或需要探索不同 IP 组合来寻找最优方案的公司。
还有一种模式叫计算子系统授权CSS,这也是很多网友关注的重点。CSS这个模式卖的是Arm预先集成、配置和验证过的计算子系统参考设计,它通常包含了CPU集群、GPU集群和系统互联IP,甚至还会包含对应的物理设计,可以直接用于SoC集成。这其实也对应着前面说的第三级、也就是系统定制的芯片设计方法。在高性能芯片领域,CSS指的是你必须严格使用Arm提供的参考设计,连改动配置跟差异化都不行。但在手机芯片领域,我没找到对应的说法。如果延续高性能芯片领域的定义,显然小米的四丛集十核心的设计不符合Arm CSS的定义。
那回到前面的问题,玄戒O1到底用的是哪种方法呢?发布会后,我第一时间问了Arm英国的前同事,以及行业的一些资深大佬,大家普遍认为小米没有直接采用Arm的CSS。
5月26日,小米集团副总裁、玄戒团队负责人朱丹也明确表示,小米是买的Arm IP的软核授权,包括CPU的Cortex-X925、A725和A520等内核,以及GPU的Immortalis-G925内核。但与此同时,CPU、GPU多核及访存系统设计完全由小米自主研发、后端设计也是完全由小米自主研发,并非基于Arm CSS软核或硬核方案。
我们应该注意的是,虽然核心计算单元的指令集架构和微架构设计源自Arm,但SoC的成功远不止于核心IP的堆砌,也并不代表这颗芯片的自研程度和技术含量有问题。芯片行业对自研率没有一个统一的量化标准,也肯定不是自研模块占的面积越大、自研率就越高。因为绝大部分芯片的缓存面积比CPU还大,总不能说自研CPU内核就没价值了。在我看来,与其纠结对自研程度的考察,不如把重点放在小米在设计这颗芯片中创造了哪些新的技术和价值。
使用搭载玄戒O1的小米15S Pro,拍摄于玄戒发布会现场
举个例子,使用公版内核+自研IP的方法,也有非常多种排列组合的方式,如何找到最优的IP配置、达到性能功耗面积的最优,这个在芯片设计中叫设计空间探索,是在一个近乎无限可能的组合中寻找最优点的复杂问题,接下来我们讲架构细节会详细说。在这一点上,小米通过自主设计ISP等关键模块,并结合Arm公版CPU/GPU进行了高效的后端实现和系统级优化,得到了很好的性能和功耗结果。这就说明玄戒团队在芯片设计全流程中,在除核心CPU/GPU微架构外的多个重要环节实现了自主掌控和创新,这本身就是自研的很好体现。
对于一个芯片团队的第一颗大芯片来说,用最快的速度跑通流程、踩完所有的坑,比激进的追求全栈自研要重要的多,这也是芯片行业的一个基本认知。这种策略是站在前人的基础上,专注于系统集成和特定功能模块的创新,从而在激烈的市场竞争中取得差异化优势并不断迭代,而不是追求名义上所有IP的从零研发。
关于小米为什么能做3纳米芯片,也有很多传说和讨论。我仔细查了一下规定条文,其实事情没有很多人想的那么复杂。
2025年1月,美国商务部工业与安全局发布了一项临时最终规则,针对先进计算集成电路提出了额外的尽职调查程序要求。在这个出口管制新规中,提出了芯片设计公司和封测代工厂的白名单,并且要求台积电这些芯片代工厂只能为这些白名单公司代工,否则要么向美国商务部提交申请,要么最终的封装要由白名单中的封测厂来执行。
需要注意的是,第一、小米不在这个白名单中;第二、向美国商务部申请豁免非常难。所以只剩下一条路,就是把封测交给白名单中的封测厂来执行。但是,这还有额外限制,就是最终芯片的晶体管总数不能超过300亿、或者不包含高带宽内存HBM+晶体管数量的额外限制。
由于玄戒O1的晶体管数量是190亿,小于300亿的限制,而且封测交由白名单企业完成,所以能够实现3纳米芯片的流片。
那这个方法能否让其他中国芯片公司也用上三纳米呢?原则上只要不在实体清单中、且符合前面的要求,也是可以的。但鉴于懂王的不确定性,政策发生新的变化也是很有可能的。
说完法理,我还想多说几句道理。小米做3纳米芯片这件事情对中国芯片产业只有好处,最大的好处就是能培养大量参与过3纳米甚至更先进工艺的芯片人才,让很多想做但没办法做先进工艺的人才能有一展身手的机会,同时反哺我国先进工艺的发展。如果国内所有公司都被制裁,这些人要么只能放弃自己的工作、要么润到海外,这难道是你想要的结果吗?
被制裁的公司,在独立自主的道路上继续发力;不被制裁的公司,继续利用好全球最先进的技术、工艺。两条腿都要同时走,不能拉一踩一。一边是继续探索自主的技术路径,另外一边是跟上世界上的领先技术,保证终端产品的竞争力,企业活得更好才能更好地支持自主创新。既然没有被制裁,就更要抓住宝贵的时间窗口,使劲做、做的越多越好。不管是白宫认证、还是央妈严选,只要在努力做科技创新的公司,都值得我们尊重和支持。
先说结论,手机SoC芯片,也是很多人说的手机大芯片,是现在所有芯片的天花板级的存在。我之所以知道,是因为我15年前的研究生专业就是SoC。它的英文名是System-on-Chip、中文是片上系统,顾名思义,它指的就是在指甲盖大小的硅芯片上构建起一个功能完备的电路系统。但和其他计算机芯片或者人工智能不一样的是,手机SoC不仅对算力和性能的要求非常高,还对面积和功耗有着近乎严苛的要求,属于真正既要又要还要的存在。
高性能保证了手机运行的流畅度,功耗保证了手机的续航,而面积则直接决定了手机的成本。但通常来说,高性能就需要高功耗、也需要更多核心堆料、从而带来更大芯片面积,很难既要又要还要,这就是芯片行业经典的PPA优化难题,也是几乎所有芯片设计工程师的一生之敌。
所以,设计一颗优秀的手机SoC芯片是一项极其复杂的系统工程,其中涉及到多个专业团队的紧密协作。具体来说,设计一颗SoC芯片分成下面几个主要阶段。
首先是系统规范定义和架构设计。这是整个SoC设计的起点,也是给一颗芯片定调子的关键阶段,通常依靠顶级芯片架构师带领架构研究团队来完成。架构团队需要根据公司高层提出的需求和目标应用,来明确定义SoC的预期功能、各个芯片组件的性能目标、功耗预算、成本目标等等。像CPU的主频、GPU的算力、AI算力、ISP处理能力等等,都是这个阶段需要定下来的目标。
基于这些需求,架构师会做顶层架构设计。比如该选择怎样的CPU、GPU、NPU这些IP,规划SoC的整体结构,定义各个模块之间的接口标准、数据流路径以及内存子系统等。这个阶段结束后,会得到一份非常详尽的SoC架构设计文档,包含了前面说的所有内容,类似盖房子的设计图纸。团队确认无误后,就推进到第二个阶段,也就是前端设计。
在这个阶段,芯片工程师会根据架构文档,把SoC拆分成大大小小的模块单元,比如CPU、GPU、NPU、ISP等等,每个模块可能还会被进一步细分成更小的功能模块,然后各个团队就开始分头去设计逻辑和电路功能了。芯片工程师通过硬件描述语言,对SoC中各个模块的预期行为和功能进行详细描述,形成RTL、也就是寄存器传输级代码,并通过大量的逻辑仿真来验证RTL代码所描述的功能是否符合架构定义和设计规范。这个过程旷日持久,可能要迭代非常多次,而且功能越复杂、迭代次数就会越多,之前文章里也详细介绍过这个流程。
前端设计完成后,就会进入后端设计的阶段。这个阶段通常分为逻辑综合、物理设计、签核验证三个主要环节。逻辑综合是将抽象的RTL代码通过EDA工具自动转换为具体的门级网表的过程。门级网表是由一系列标准逻辑门和触发器等基本逻辑单元及其互连关系组成的电路描述,是连接逻辑设计和物理设计的桥梁。
物理设计是将门级网表映射到实际硅片版图的过程。它还包括布局、布线、时钟树综合、电源网络设计等几个关键步骤。签核验证是指物理设计完成后,需要做的一系列分析和测试,以确保芯片在实际制造出来后能够正确工作并达到预期的性能指标,包括时序分析、功耗分析、信号完整性分析、物理设计检查、一致性检查等等。
总之,前端设计和后端设计结合起来,就相当于把房子的设计图纸转化成施工队能看懂的施工图纸的过程。这些步骤完成后,就会送到芯片代工厂去流片制造了。
很多人会问了,你不是说现在芯片都是买IP攒起来的吗,这有何难呢?我之前发了一期短视频也说了,这就像去超市买菜做饭,同样的食材怎么有的人就能做出来满汉全席、有的人连西红柿炒鸡蛋都做不明白,是一个道理。
一颗旗舰手机SoC通常集成了数十个甚至上百个不同功能的IP模块,这些IP可能是芯片团队自研,或者来自不同的供应商,比如CPU和GPU来自Arm,高速接口IP来自新思科技等等。它们可能基于不同的设计方法学、采用不同的工艺库,光是将它们无缝集成并确保协同工作是一项巨大的挑战。因为要保证这些IP组合在一起之后的功能正确、时序收敛、功耗符合预期。
所以,设计一颗手机SoC芯片不仅要求在晶体管和逻辑门这些微观层面的精妙设计,更是非常考验芯片团队在系统架构设计、多IP集成、软硬件协同这些宏观层面的全局驾驭能力。而这些在玄戒O1这颗芯片里都有很多创新之处,在接下来的架构深度解析中我会详细介绍。
除了技术难度,其实还有巨大的财务压力和管理难度。像玄戒O1这样规模的三纳米芯片流片制造一次的成本大概是大几千万美元,而且容错率为0,任何微小环节出问题,都会导致整个流片失败。根据调查机构Wilson Research Group和西门子EDA的数据,2024年全球芯片项目的首次流片成功率只有可怜的14%。钱打了水漂不说,还会非常影响产品上市的时间节奏。不过玄戒团队告诉我,玄戒O1 是在去年五月一次性流片成功,这非常不容易了。
所以设计一颗手机SoC大芯片,对于技术、资金、管理、以至于管理层的决心和勇气都是巨大的挑战。接下来我们就深度分析一下玄戒O1的技术细节。
玄戒O1架构深度解析终于到硬核的部分了。玄戒O1的芯片架构其实是很有意思的,接下来我就从CPU和缓存架构、ISP、NPU、性能优化、低功耗分析这几个方面,来详细梳理一下玄戒O1的技术细节。
先看CPU架构。玄戒O1采用的是四丛集、十核心的设计。四丛集的意思是,十颗CPU内核分成了四个部分,包含两颗X925超大核、运行频率3.9GHz;四颗A725高性能大核、频率3.4GHz;两颗A725能效大核、频率1.9GHz,还有两颗A520能效小核,频率1.8GHz。我第一次看到这个设计的时候,第一反应就是和当前已有的高性能旗舰手机SoC有着非常大的区别。
就拿之前详细介绍过的、同样使用3纳米工艺的高通骁龙8至尊版举例,它用的是大核+超大核的两丛集架构,其中包含两颗运行频率为4.32GHz的超大核和六颗运行频率为3.53GHz的大核,没有任何能效核,这和苹果A系列的芯片的设计思路也是一脉相承的。
骁龙之所以没用这种大中小结构,主要有三个原因。一个是他们用的是自研Oryon内核,不是Arm的公版内核,所以性能做的非常高、功耗也控制的不错;第二个原因是Arm把重点都放在大核的优化上,导致中小核优化的不行。所以高通索性就放弃了能效核的方案。第三个原因,就是内核丛集少,可以降低任务调度的难度,只需要判断某个任务需要超高性能或者其他就可以了。
但对于小米来说,他们还没有自研内核,只能用Arm的公版内核,那第二个问题、也就是Arm公版能效核拉胯的问题就暴露的更严重。而且玄戒团队发现,手机使用时80%的时间都集中在中低负载,比如亮屏待机、聊天、刷短视频、甚至是玩王者这些轻负载的游戏都属于这个范畴。既需要补强低功耗性能,又保证能耗不翻车,而且又没有自研内核这个大杀器,所以他们就选择了低功耗大核A725+低功耗小核A520的这个组合,得到我们现在看到的四丛集结构。
但这种结构就增加了调度的复杂性。对于PC处理器来说,这种调度可以放到操作系统层面来做,但手机芯片就不能了,因为对实时性要求非常高,一点小卡顿就很影响体验。所以玄戒O1特别在芯片上配置了一个任务调度的模块,直接在硬件上完成任务调度,性能和体验肯定提升了,但设计芯片的兄弟们活就更多了。
除了丛集和内核数量不同,玄戒O1的缓存结构设计也和骁龙8至尊版有着很大区别。缓存对芯片的性能影响很大,我们之前说过,数据保存的位置离使用的位置越近,性能就越高。缓存越大,就能提前把数据都暂存进来,减少对ddr这些外存的访问次数,也能提升数据的复用程度,所以能极大提升性能、降低延迟。但越大的缓存容量对芯片成本和面积的要求会指数级增加,所以是芯片设计过程中的一个非常关键的取舍点。
在玄戒O1中,每个内核都有自己的二级缓存,比如X925超大核独享2MB L2缓存、A725每个核1MB、而A520两个核共享512KB的L2缓存,所以整个CPU部分一共有10.5MB二级缓存。除了L2,玄戒O1还设置了16MB的三级缓存,由所有内核共享。这种属于比较经典的多级缓存架构,而且实话说这个缓存堆料已经很足了,三缓的面积已经超过了两颗X925的面积之和。
但相比之下,骁龙8至尊版没有用单核心二级缓存,而是用了超大的共享二级缓存结构,比如两颗超大核共享了惊人的12MBL2缓存、六颗大核也共享了12MB二缓,不仅远超玄戒O1、也超过了苹果A18Pro,做的非常激进,当然也带来了更大的性能提升。
那这种缓存结构又有什么问题呢?一个主要的问题就是缓存一致性的维护,说白了就是如何保证多核对缓存里同样内容进行读写的时候不会乱套;同时还可能引入更高的仿存延迟。这个东西非常复杂,也是高通没有披露的核心技术秘密。我们在实际做芯片验证、特别是多核验证的时候很头疼一致性问题。相比之下,玄戒O1除了A520外没有共享二级缓存,就从架构上规避了这个问题。
这里小结一下,玄戒O1的CPU和缓存架构其实是有自己的独特考量的。不是简单的堆核堆资源,更不是直接用的参考设计,而是根据实际场景、需求和有限的资源做出的折中。
再来看ISP,这个小米已经自研很多年了。2019年,小米相机部就立项自研ISP,两年后他们首款自研ISP-澎湃C1在小米MIX Fold首发,重点面向影像领域最基础的自动报告、自动白平衡、自动对焦、也就是所谓的3A能力进行了优化提升。2022年和2024年,第二代、第三代自研ISP-澎湃C2和C3分别搭载到部分小米12S Ultra和小米14 Ultra机型中。这个其实他们没有宣传,但有些硬核拆机博主其实也发现了一些端倪。然后在玄戒O1里,其实用的就是第四代自研ISP模块了。
从架构的角度来看,这代ISP单元采用了三段式流水线,第一级做相机CMOS输出的3A修正,第二级做图像HDR融合、Raw域降噪、色调映射这些操作,第三级做电子防抖、色彩增强、视频动态范围处理。值得注意的是,这个三级流水的结构和行业常见的两段式流水有些不同,这主要是基于降低芯片整体功耗的考虑。
由于CMOS传感器速度远远快于ISP,和CMOS对接的第一级流水需要保持高频高速,就会带来更高的功耗。这个时候把一二级流水切开,让二三级以更低的速度运行,就能避免整个ISP流水线都在高频运行,从而降低一部分功耗。对于独立的外挂芯片来说,这些功耗可能不值一提,但把它集成到SoC芯片中,这些功耗的节省就非常重要。
根据玄戒的数据,这个ISP单元单摄最大支持2亿像素,三摄同开最大支持6400万+5000万+5000万像素,自动对焦、白平衡、曝光这些基础功能都放到芯片上来做,速度可以提升100%。不管是相机启动、连拍、还是拍摄后的预览都能全面提速。
除了基础能力,玄戒O1的ISP专门增加了多帧HDR融合和AI智能降噪两个画质增强的硬件单元,让手机实现全焦段超级夜景视频,信噪比最高提升20倍。更重要的是,由于这些功能是原生集成在SoC芯片中的,所以第三方应用可以直接使用,不需要额外开启。这也是做SoC芯片的一个重要意义所在。
再来说NPU。玄戒O1集成了6核NPU模块,支持标量、矢量和张量的计算加速,算力达到44TOPS。这是什么概念呢?根据微软的定义,AI PC笔记本的NPU算力需要不低于40TOPS,那可是笔记本的大小和功耗条件。这说明玄戒O1的NPU算力已经可以支持一些实际的生产力应用了,比如AI搜索、长焦拍摄的计算、以及端侧模型在手机的部署和使用。
在硬件设计层面,玄戒O1的NPU还针对AI影像算法、小爱、以及各种AI应用算法提炼出常用的100多种基础算子,并用硬件电路实现了这些算子的功能。也就是说,原本AI算法中调用的这些基础算子需要用CPU或者GPU的软件实现,但现在直接在硬件里就能计算了,这样速度自然提升了非常多。
前面说自研芯片的好处就是能结合实际业务做深度定制,NPU和AI应用就是一个很好的例子。在和玄戒芯片交流的时候他们告诉我,NPU在设计之初就面向小米的端侧AI业务进行了深度定制,除了算子的凝练和硬化,还有对端侧模型的适配和支持。比如在搭载玄戒O1的小米15S Pro上部署小米第三代端侧模型,在文本润色这个应用中,模型性能能达到62tokens每秒,
说完了架构层面,我们再来看玄戒O1的性能调优,这里我特别关注他们如何冲击3.9GHz的高主频。
作为对比,发哥的天玑9400是首发搭载Arm X925超大核的旗舰SoC,它同样采用第二代三纳米工艺,包含一颗X925,运行频率是3.626GHz;就在一个月前,发哥又发布了天玑9400+,X925核心的运行频率提升到3.73GHz。这应该已经是已知的X925运行频率的天花板了。
但相比之下,玄戒O1不仅集成了两个X925内核,而且每个X925的运行频率更是直接飙升到3.9GHz,比9400高7.6%,比9400+高4.36%,这也立竿见影的拉高了玄戒O1的单核性能。通过和玄戒芯片团队的交流,他们告诉了我三个拉主频的方法。
第一个就是通过重新设计供电网络,缩短逻辑电路之间的关键路径。传统的芯片设计都需要设计复杂的供电网络,而且穿插在逻辑单元中间,从而保证供电的均衡。但这就把逻辑单元隔开了,导致延迟增加。这有点类似城市规划的时候道路太多,两个楼之间的距离就增加了。玄戒O1对超大核改变了电源设计方法,把主供电单元移到两侧,这样逻辑单元之间的距离就能更近了,降低了延迟。
第二个提升主频的方法更激进,就是他们优化和自研了很多3纳米的标准单元和寄存器单元,这个也是一些芯片公司为了提频会用的方法,但前提是需要根据目标的工艺节点进行深度优化,并且需要和EDA公司以及代工厂深度合作。
第三个提频方法比较暴力,就是人工优化版图。一般来说几百亿晶体管的芯片版图主要都是靠EDA工具生成的,但可以通过人工去专门优化那些对时序影响最大的路径,比如微调一些功能模块的布局和走线。这种方法听起来很简单,但做起来非常麻烦,通常是牵一发动全身,经常一条路径的时序修完,又冒出来几十上百条新的时序违例的路径。根据玄戒的说法,他们花了四个多月专门进行芯片版图的迭代,最终得到了最优的设计。
性能上去了还没完,功耗也不能翻车,这就是手机SoC难的地方。除了前面说的采用了A725+A520双簇能效核的架构之外,在SoC级别玄戒团队还设计了四种功耗模式。在深度休眠和待机状态,SoC全员离线,只保留系统控制器维持唤醒和计时器这些基本工作。在手机息屏的时候,仅启用低功耗感知器,维持语音唤醒、运动检测这些智能感知功能。在息屏但有后台应用的情况下,比如听音乐听播客,会额外启动音频解码器、部分的片上总线和存储,网络模块和NPU模块以及低功耗的内核也有可能启动。最后就是亮屏场景,用户主动使用手机的时候,就会根据需要开启GPU、ISP,并且根据负载的等级依次启用不同的CPU内核。
当然这只是玄戒O1系统级低功耗设计的一个方法,据我所知他们还做了细粒度的频点优化和电压优化,让四颗能效核的工作电压下探到0.46V;还根据游戏这样的固定周期的应用做了芯片里各个部件的系统化调频。值得注意的是,这些优化需要大量的场景数据,是Arm、发哥、高通这样做通用方案的公司很难做到的,也是小米做SoC芯片的独特优势。
2019年,华为被加入实体清单,由此开启了全民对芯片重要性的反省和思考。
2023年,同样是五月,一家曾豪言投资五百亿要自研芯片的中国公司轰然倒塌。在最后的全员会议上高管数次落泪。「多情自古空余恨,好梦由来最易醒」,这是那个造芯梦碎的CEO留给行业的最后一句话。中国芯片行业迎来又一个至暗时刻。
清单也好、禁令也罢,表面上是给芯片技术加了一把锁,但其实也给人们的心里加上了一把无形的锁。
它制造了一种“寒蝉效应”,让芯片公司不敢宣传自己的技术进步,也让很多普通人认为中国公司不配、或是不该用上世界上最先进的技术,否则就是有问题。
中国芯片太需要有人站出来了。
两年后,玄戒O1横空出世,并且一上来就贴脸开大,虽然离第一梯队的玩家仍然有明显差距,但也代表着小米在高端SoC设计领域已经有了和国际一流水平对话的实力。原来看得见、摸不着的东西,现在我们也能玩起来了。
对于小米来说,自研芯片本身是个长期主义的关键战略,是个充满挑战的马拉松,而不是一蹴而就的百米冲刺。玄戒O1和T1的发布,是他们在这条漫长道路上取得的阶段性成果,展现了小米管理层的决心、持续的资金投入和一定的技术积累。
对小米自研芯片的评价,不能仅仅基于一两款芯片的短期市场表现,更应该看他们长期战略的坚定性、持续的研发投入能力、核心技术人才的培养、以及应对复杂外部环境的智慧和韧性。
我们也不妨再发散一下。小米玄戒的问世,是中国科技企业在全球半导体产业链重构和地缘政治博弈加剧的大背景下,寻求向上突破和战略自主的一次重要尝试。华为立足国内芯片产业链,小米立足全球产业链,为中国芯片产业积累先进制程的实战经验。它可能不是一条能够轻易实现“弯道超车”的捷径,但代表了一种积极利用全球半导体产业链资源、寻求“换道”发展的决心和努力。这种实践,也为其他有志于芯片自主研发的中国科技公司提供了一个值得研究的案例。在这个探索过程中的经验与教训,无论最终结果如何,都将为中国半导体产业的未来发展积累宝贵的财富。
从澎湃S1到玄戒O1,说明从芯片成功发布到真正赢得市场认可,并形成可持续的商业模式,还有很长的路要走。这条路苹果走了15年,三星走了16年,华为走了13年,而小米只是刚刚开始。
我一直在想,「玄戒」这两个字到底代表什么?在古文中并没有这两个字的直接出处,直到看到玄戒的英文名Xring,让我想到《指环王》中不同人对魔戒的执着:有人把它当成宝贝、有人用它作恶,但也有人愿意为信仰而战,哪怕直入魔多的烈焰。所以这篇文章的最后,我想用阿拉贡的话作为结尾:
也许有一天,人类的勇气会耗尽,但绝不是今天。
来源:老石谈芯