固件技术跃迁:AI时代的挑战、重构与生态协同

360影视 欧美动漫 2025-06-05 08:55 2

摘要:曾几何时,固件是容易被人忽视的“小角色”,无论是传统的BIOS还是主流的UEFI都是软硬件协同的桥梁,给人以“初始化工具”的概念。但是到了今天,在AI与算力革命的双重驱动下,固件技术也发生了巨大的变化,正经历着从“幕后配角”到“算力基建核心”的颠覆性跃迁。

随着大模型应用渐入佳境,固件技术也进入了“智能定义” 的全新时代。

曾几何时,固件是容易被人忽视的“小角色”,无论是传统的BIOS还是主流的UEFI都是软硬件协同的桥梁,给人以“初始化工具”的概念。但是到了今天,在AI与算力革命的双重驱动下,固件技术也发生了巨大的变化,正经历着从“幕后配角”到“算力基建核心”的颠覆性跃迁。

日前,由火山引擎与阿里云联合发起主办、固件产业技术创新联盟协办,中国电子技术标准化研究院、OCP(Open Compute Project)以及OSFF(Open System Firmware Foundation)共同参与的第二届固件技术峰会在长沙顺利举行。据悉,此次峰会由字节跳动在2023年发起和主办的云固件技术沙龙升级而来,大会以“创新、协作、发展” 为核心理念,吸引了全球50多家企业、近200位固件技术开发者、行业专家汇聚一堂,共同探讨固件技术的前沿发展与应用实践。

字节跳动:云时代敏捷架构驱动的“云固件3.0”

AI时代多元算力需求如汹涌浪潮,猛烈冲击着传统固件架构。据权威分析机构IDC发布的《中国人工智能计算力发展评估报告》显示,2024年中国智能算力规模达725.3EFLOPS,同比增长74.1%。《报告》预计未来中国智能算力仍将保持高速增长——2025年中国人工智能算力市场规模将达到259亿美元,2026年这个数字将达到337亿美元。

这种巨变也正影响着行业里的每一位玩家。从2022 年底的ChatGPT 到国内豆包,通义千问等大模型的横空出世,再到突进DeepSeek席卷行业,生成式大模型应用正在迅速占领市场并赋能于千行百业。这种变化也为固件发展带来了巨变,在“AI+云”的双重作用下,字节跳动最早提出了“云固件”的定义并实现了服务器的产品化,其初衷就是借助开源的力量、利用活跃度较高的Linux社区来解决固件问题。

这其中,最核心的就是异构平台的协同性问题。在采访中,字节跳动系统技术与工程团队负责人张宇、字节跳动固件负责人彭亮都有提到异构平台所带来的固件扩展性压力:“北向接口(运维系统对接)标准化率约60%,而南向接口(硬件设备对接)仅20%。尤其是AI 加速卡的故障上报协议缺乏统一规范,使得故障定位效率大打折扣”。张宇同时表示,虽然字节跳动已经尝试通过引入AI 手段来分析处理类似问题,但在复杂场景下,仍需大量的人工干预,这也对智能化运维产生了巨大挑战。

于是,字节跳动提出了“云固件3.0”的概念,即采用不同架构适配不同平台。若1.0 和2.0 版本仍聚焦于英特尔平台进行优化,那么3.0 时代所涵盖的平台包括但不限于x86、ARM 和RISC-V 等。这也是人工智能时代的特征,随着异构应用渗透到IT 架构的各个层面,需要进行固件适配的设备日益增多,此类繁琐且重复性的工作,使开发者和运维人员均饱受困扰。

“云固件3.0”引入社区近期提出的OpenSFI(Open Silicon Firmware Interface)概念,即采用一套coreboot/EDKII 适配不同架构的SoC,下层接口层与不同的硬件固件对接,上层调用层按照统一标准的接口由coreboot/EDKII 进行调用。这类似于用户可能拥有多种不同接口的电子设备需要充电,例如Type - C、Lightning、Micro USB 等;原本用户可能需要携带多种充电线或充电头,但通过coreboot 适配后,用户得到了一个“万能充”,无需关注底层如何进行转换,只需插入即可“充电”。

“云固件3.0”的另一大显著特色在于明确并提供了Efistub 接口。ARM 和RISC - V 最初主要应用于嵌入式设备,如今已进入PC和服务器领域,需要满足硬件设备即插即用的要求。明确UEFI接口后,引入Efistub 使得coreboot 能够向操作系统提供标准的系统表,以此传递UEFI 接口,从而支持硬件的灵活配置。

在AI 服务器集群中,异构硬件的多样性使得传统固件管理模式难以有效发挥作用。如前文所述,不同厂商生产的GPU,不仅硬件接口存在显著差异,其管理协议和故障上报机制也千差万别。这使得运维人员需要针对每一种设备进行单独的适配与维护,极大地增加了运维成本,延长了运维时间。此外,由于缺乏统一的故障上报规范,系统一旦出现故障,快速且精准地定位问题就变得极为困难,往往需要耗费大量的时间和精力进行排查,这对系统的可用性和稳定性构成了严重威胁。

字节跳动自主研发的Hyperscaler System Error Reporting(HSER)超大规模系统错误报告系统,借助全链路故障数据采集与人工智能解析技术,能够显著缩短系统运维时长,数倍提升故障定位的精确性,效率提升效果显著。

时至今日,字节跳动在固件领域始终坚持产品交付与开放创新双轮驱动。据字节跳动系统技术与工程团队负责人张宇介绍,近年来相关团队在Cloud Firmware、OpenBMC、HSER、内存故障预测等技术方向持续深耕,相关研究成果以论文及主题分享形式,在OCP、OSFF、固件创新联盟、IEEE Data Center RAS Summit等国内外技术社区发布交流。如今,云固件3.0解决方案已经在火山引擎内部上万台生产系统中实现稳定部署,后续也将持续进行研发和迭代。

阿里巴巴:“自研+开放”软硬协同导向的业务优先

技术发展是多元化的,每一家企业都可以选择适合自身的解决方案。随着硬件架构正逐步从“CPU中心”转向“GPU/DPU中心”,几乎所有大型互联网企业都在探索适合自家模式的全新方案,而同样作为互联网巨头,有着百万台服务器管理需求的阿里云就选择了与字节跳动不同的道路。对此,阿里云固件技术负责人李羿感慨道:“所有的技术的发展,其实都是根据业务的需求来的。字节跳动有云固件3.0,我们阿里也有自己的技术,这些差异是基于各家公司的业务以及组织架构定位发展决定的”。

同样为了解决AI服务器复杂互连架构下多种Switch管理应用架构差异化而带来的运维管控难题,阿里云则是依托定制Switch芯片,联合固件联盟以及ODM厂商、芯片厂商,制定了面向整个业界AI异构服务器的首个X Switch(PCIe /CXL/UALink)接口规范,也让AI Switch产业链上的各个角色可以高效配合,极大加快各类Switch芯片在云厂商的落地速度,丰富了整个Switch生态链的选择。

如李羿所说,能够进行这样的创新本来也与阿里云多年来自研架构、自研芯片密不可分,而自研也成为了阿里云的独特“标签”。正如名称中“X”所代表的多元化一样,X Switch接口规范是以阿里云海量的服务器为基础,兼具ODM厂商丰富的开发经验,覆盖AI服务器从研发、测试、监控和维修以及故障预测等全生命周期端到端的需求,具有极大的实际应用价值,也推动了国内AI产业的成熟。

“在AI时代,Switch对于固件领域来讲是比较一个新的东西,因此我们也与国内的许多高校展开了联合研究项目。比如在长沙,我们就与本地的两所985高校湖南大学和中南大学开展合作,同时也与清华大学、武汉理工大学等高校开展了科研领域相关的前沿科技探索”,李羿表示。当然,作为最早拥抱OpenBMC技术的互联网大厂,阿里云在主力产品上也已全面落地该技术并在X Switch的管理上,进行多维度的创新,使得云产品整体更具备技术竞争力。

现场,李羿介绍了“为云而生”合作定制开发的BMC芯片—CMU(Cloud Management Unit),BIGBMC和LittleBMC一大一小两款解决方案。多年来,主流BMC芯片已经不能适应云时代的需求,无论是在接口、集成度、小型化等方面都急需调整,以满足多芯片、高集成度的未来发展趋势。而在阿里云的技术规划中,BIGBMC主打极致集成度,通过整个安全等功能,让系统成本节省60%以上;LittleBMC主打极致精简,节省DDR芯片、Flash芯片等等,同样优化系统空间70%以上。同时CMU芯片结合自研代号为CoreLynx的固件系统,带来多项差异化竞争力,更是给芯片插上腾飞的翅膀,在这种软硬结合的模式下,让阿里云能够灵活应对未来的固件发展挑战,在BMC领域给出了完整的“软件+芯片”的一体化解决方案。

一直以来,阿里云的固件技术路线始终把软硬协同和稳定性摆在首位。借助UEFI框架实现硬件接口的高度统一,极大提高了系统的兼容性和稳定性。同时,阿里积极将AI技术全方位应用于固件开发全周期,从需求分析到测试验证,再到运维优化,形成完整技术闭环。

“比如在通义千问,把对应的知识库、文档直接输入需求给固件机器人,它能够自动整理答案,甚至图片都以一种非常逻辑化和专业化的形式展开。此外通义灵码(通义千问在代码领域的应用)也可以辅助代码检视(Code Review)和编码(Coding),实现效率提升”,李羿解释说。

标准化破局:从技术竞争到生态共建

除了各家技术路线的分享与讨论之外,本次峰会的另一项重要议题就是如何实现强化标准引领作用,推动标准与产业融合,以及构建产业生态,加强人才培养。对此,中国电子技术标准化研究院技术总监钟伟军也代表“固件产业技术创新联盟”(以下简称“联盟”)在主题演讲中进行了详细介绍。他表示,标准化在推动整个产业发展当中起着非常重要的作用,联盟通过标准化为抓手,开展了以标准化为核心的科研、检测、计量、认证信息服务,也提供相关政策的研究以及行业管理的支持。

相比字节跳动、阿里云这样实力雄厚的大型互联网公司来说,不少中小企业其实缺乏足够的技术积累与应用体系,因此更需要标准化的指导和帮助。对此,钟伟军表示联盟成员涉及多个细分行业与维度,而标准化的目的就是实现产业上下游资源的整合,让每家企业都能从中受益。从这个意义上讲,中小企业更可以根据标准化的需求实现“未雨绸缪”与提前部署,在发展过程中抢先布局。

本届峰会上,阿里云、联想、新华三、长城、超聚变等五家企业成为首批通过BIOS/BMC标准符合性测试并获得证书的厂商,这也说明联盟的标准化工作卓有成效。“通过统一技术规范、优化流程体系,消除行业壁垒,提升协同效率,标筑牢质量根基、增强创新动能,引领产业向高端化、智能化、绿色化演进”,钟伟军表示。

众人拾柴火焰高,整个行业与联盟的快速发展也离不开成员单位的大力支持。比如早在去年12月,由联盟和阿里云等单位牵头的固件测试认证平台发布开源测试工具。此工具主要服务于已发布的BIOS/BMC标准符合性测试,同时也支撑即5项行业标准测试认证服务,给互联网和电信等行业用户基线测试和引入测试提供指引。

至此,也解决了联盟内中小企业因缺乏技术与资金实力,在面对复杂的固件适配问题时往往力不从心的问题,为他们提供便捷的检测工具。这不仅是推动技术标准化与产业协同方面取得的重要进展,也为固件技术的安全性、规范性和产业化应用提供了有力支撑。

在开放开源并与国际接轨方面,本次峰会宣布成立两个和全球同步的本地OCP中国工作组:

•HMF(Hardware Fault Management)工作组,推动国内外厂商一起建立并采用RAS API 的技术规范,统一RAS 软件跟硬件之间的接口,解决当前云+AI服务器带来从CPU为中心到异构多中心带来接口混乱的情况。

•云固件(Cloud FW)工作组

成立这两个全球同步的技术工作组,能有效整合国内产学研用各方资源,深度参与工业标准制定过程,与OCP全球技术路线图进行深度对接,把中国技术社群的需求融入国际标准制定中,并在开源代码开发方面做出实实在在的贡献。

这一举措表明中国技术力量在国际开源生态里实现了从规范定义到代码实施的全流程参与,推动全球技术标准体系形成更平衡的产业共识。

经过多年的发展,如今的固件技术已从“硬件附属品”升级为算力基础设施的核心密码。在此过程中,字节跳动和阿里云作为国内头部领军者,分别凭借不同技术路线和实践,为行业发展提供宝贵经验。但无论路径如何,AI 正成为破局关键—— 从大模型生成规格文档到强化学习驱动故障自愈,技术闭环的形成标志着固件开发进入“智能定义” 的全新时代,而标准化、开放性和创新性也将推动产业持续发展,迎来产业应用新蓝海。

来源:IT大嘴巴

相关推荐