摘要:当前,AI 浪潮正以前所未有的力量重塑产业格局,国产化替代的加速推进,也让基础设施领域的技术创新成为了焦点。服务器操作系统作为算力底座的核心,正在经历着从 “适配” 到 “AI 原生驱动” 的关键变革。
当前,AI 浪潮正以前所未有的力量重塑产业格局,国产化替代的加速推进,也让基础设施领域的技术创新成为了焦点。服务器操作系统作为算力底座的核心,正在经历着从 “适配” 到 “AI 原生驱动” 的关键变革。
由阿里云联合 InfoQ 打造的《AI 进化论:智算时代操作系统的破局之路》栏目首期,邀请北京大学计算机学院教授、副院长,中国计算机学会开源发展委员会副主任 周明辉,阿里云智能集团研发副总裁、龙蜥社区理事长马涛,围绕 AI 对操作系统的影响、技术演进、安全挑战、国产化机遇及生态构建等核心命题展开深度对话,解构智算时代操作系统的破局逻辑与实践路径。
以下为经编辑整理后的内容精粹。
1 AI 时代操作系统的重构与考验
操作系统的本质,始终是 “向下管理硬件资源,向上为用户和应用提供开发与运行保障”。周明辉教授在直播中强调,这一核心定位从未改变,但随着应用场景与硬件资源的迭代,其承载的功能与面临的挑战已发生根本性变化。从早期物理服务器时代的硬件资源管理,到云计算时代的虚拟化与多租户隔离,每一次技术革命都推动着操作系统的能力边界不断拓展。而 AI 时代的到来,尤其是大语言模型的训练与推理场景,正给这一经典系统带来前所未有的冲击。
“大语言模型的训练和推理,其核心特点是计算密集、数据量大、参数众多,这使得算力、存储、数据、模型必须实现一体化协同管理。” 周明辉指出,这种协同需求对传统的资源管理模式构成了 “革命性挑战”—— 传统操作系统的进程调度、内存分配、文件管理逻辑,已难以满足 AI 场景下的高效协同要求。
马涛结合近 20 年的产业实践,进一步拆解了 AI 场景的具体挑战。他以 GPU 为例:“现在一台 GPU 一体机成本高达几百万,让它高效运行 10 分钟,操作系统需要做好大量底层工作。” 在训练场景中,数据量的爆发式增长要求操作系统重新设计存储策略 ——AI 训练的中间数据多存储于对象存储或高性能文件存储中,如何将数据高效搬运至 GPU 显存、如何在显存不足时实现与内存的动态置换,都成为全新课题。而在推理场景中,多步骤计算对 CPU、GPU、存储、网络的差异化需求,更要求操作系统具备动态适配能力。
这种变化的背后,是计算核心的迁移。“过去数据中心以 CPU 为核心,调度算法围绕 CPU 设计;现在则转向以 GPU 为核心,CPU 更像‘保姆’—— 需要提前完成数据处理、内存准备等工作,让 GPU 专注于计算。” 马涛解释道,这种转变不仅涉及计算逻辑的重构,更引发了网络栈的连锁变革:在多机多卡协同场景下,数据如何跨设备高效传输、如何诊断机器间的故障、如何优化 shuffle 与 reduce 等操作,都需要操作系统在网络层进行深度革新。阿里云的 HPN7.0 技术在 SIGCOMM 上获得 best paper,正是这种优化的典型成果。
从实践来看,AI 驱动的变革已体现在操作系统的每一个细节中。马涛透露:“我们在阿里云通过持续优化计算、存储、网络等模块,将改进逐步开源到社区。每个小优化叠加后,操作系统会慢慢变得‘不一样’—— 比如针对 GPU 的调度算法、针对大模型的内存管理策略,这些积累最终会形成适配 AI 场景的新系统。”
据介绍,最新发布的阿里云服务器操作系统 4.0,便是上述优化的集大成者,它深度整合了 AI 训练与推理场景的底层能力,比如针对 GPU 显存与内存的智能置换算法、多机多卡协同的低延迟网络调度等,都是从千万级 AI 任务中沉淀出的技术结晶。
2 技术演进与安全攻坚:在改良与突破中寻找平衡
面对 AI 带来的挑战,操作系统的演进呈现出两条清晰路径。周明辉将其概括为 “改良与革命并存”:一条是基于传统架构进行 AI 适配优化,另一条是重构全新架构,让 AI 成为操作系统的核心。
“传统操作系统的架构已发展数十年,承载了无数应用,面向 AI 做改进是必须走的路,但这条道路充满挑战。” 周明辉坦言,传统技术路线的复杂性使得满足 AI 场景的大数据量、高计算密度、快存储响应等需求极为困难。以内存管理为例,大模型的参数规模动辄数十亿甚至上百亿,传统的分页机制与缓存策略已难以应对,必须重新设计内存分配与回收逻辑。
马涛从产业视角印证了这一判断:“工业界目前更侧重第一条路径,因为要兼顾现有用户的 legacy 系统与业务连续性。” 他以阿里云为例,操作系统团队通过 “小步快跑” 的方式持续迭代 —— 针对 AI 训练场景优化存储 I/O、针对推理场景优化任务调度、针对多卡协同优化网络传输,这些改进并非颠覆性创新,但积累到一定程度后,系统会呈现出全新的适配能力。“我们把这些工作开源到社区,一方面接受社区验证,另一方面也能汇聚更多开发者的智慧,从量变积累到质变。阿里云服务器操作系统 4.0 版本就是这种迭代模式的阶段性成果:它既兼容传统业务的运行需求,又能通过‘AI 加速引擎’模块为大模型训练提供专属优化,实现了‘legacy 系统平稳过渡’与‘AI 场景高效支撑’的双重目标。”
对于第二条路径,即 “AI 即操作系统” 的架构革新,两位嘉宾均认为其是未来方向,但需长期探索。“传统操作系统模型确实不适合 AI 场景,未来可能基于 GPU 核心重构体系,甚至用 Rust 语言重写内核。” 马涛指出,企业当下难以全身心投入,因为要平衡客户需求与技术革新 —— 这也是新型创业公司的机会所在,“它们没有历史包袱,可以轻装上阵,尝试全新架构”。周明辉补充道:“学术界也在关注这一方向,比如探索如何让大语言模型直接承担部分操作系统功能,未来用户可能‘用自然语言操作电脑’,这会彻底改变人机交互模式。”
技术演进的同时,安全与供应链风险成为不可忽视的挑战。周明辉从学术研究出发,提出两大核心解决方向:一是通过 Rust 语言重写内核解决内存安全问题,“比如北大国家实验室与蚂蚁集团合作的‘星绽操作系统内核’,利用 Rust 的内存安全特性构建‘宽内核’,在保障安全的同时兼顾性能”;二是通过形式化验证确保内核功能正确性,“形式化验证能发现传统测试无法察觉的数值溢出、条件竞争等问题,为自动驾驶、工业控制等安全攸关场景提供确定性保障”。
AI 场景的特殊性还加剧了供应链风险。周明辉强调:“软件供应链是全球命运共同体,只要互联网存在,所有参与者都无法独善其身。AI 供应链的风险更具独特性 —— 训练数据可能被投毒,海量参数中潜藏后门,从硬件芯片到 AI 框架的全链条都可能出现漏洞。” 他特别提到 XZ Utils 供应链投毒事件暴露出的社会工程学攻击,以及国内生态处于全球下游面临的 “断供风险”,“这些问题不是中国特有,而是全球性挑战,需要学界与产业界共同应对”。
针对上述安全方面的挑战,马涛从产业角度提出了 “体系化、平台化、智能化” 的应对策略。“体系化即覆盖代码拉取、编译环境、发布渠道等全环节,确保每个节点可控 —— 比如上游代码的溯源、编译机器的安全加固、发布包的签名验证。” 他解释道,“平台化是将所有信息透明化,让用户知晓软件包的来源、漏洞与升级路径,龙蜥社区已经实现了这一点,所有包的评分、更新记录、安全漏洞都公开可查。” 而智能化则是利用大模型提升安全水位,“比如让 AI 模拟攻击者进行渗透测试,或者自动分析代码中的潜在漏洞,这能大幅提升安全检测效率”。
在运行时安全方面,阿里云正在研发 “龙盾” 功能,通过全栈防护机制隔离风险。“即使攻击者突破防线,也无法获取其他用户数据,以此将安全损失降到最低。” 马涛坦言,对于大模型的数据污染风险,目前行业仍在探索,“我们在尝试通过数据标注与溯源技术提前识别风险,但无法做到零风险,只能尽力降低”。
3 国产化突围与生态共建:从 “跟跑” 到 “生态位跃升”
除了 AI 浪潮,“国产化”则是操作系统演进过程中的又一重要趋势。2020 年的 CentOS 停服事件,成为了国产服务器操作系统发展的 “转折点”。周明辉回忆:“当时全中国服务器中十之八九使用 CentOS,停服消息如同地震,这暴露了我们在全球软件生态位的低端 —— 过度依赖上游,一旦上游‘断水’,下游便陷入困境。” 但他同时强调,国产化绝非简单的 “替代”,而是 “立足全球化,向生态位高位攀升”。
“软件是全球化市场,国产化不能关起门来做。” 周明辉的观点鲜明,“我们的目标是吸引全球智力与市场,让国产操作系统不仅服务国内用户,更能进入国际市场。比如开源项目,就应该利用全球的开发者资源,解决全球性问题。”
马涛将国产化路径总结为 “脚踏实地 + 仰望星空”。他表示:“‘脚踏实地’是指通过社区的延保计划,帮助用户平稳过渡 —— 很多企业的业务系统基于 CentOS 构建,开发者可能都已离职,让他们重新适配新系统不现实。我们通过兼容接口、提供 CVE 更新,让用户能‘无痛迁移’,如同为旧桥梁铺设新的桥面,确保通行不受影响。” 而 “仰望星空” 则是积极参与国际上游生态,“在 Linux Kernel 等关键子系统中贡献代码,在 RISC-V、虚拟化等标准制定中争取话语权,如同从参与游戏到逐步制定游戏规则”。
他以龙蜥社区的实践为例:“我们联合欧拉、OpenCloudOS 达成生态协议,对 200 多个核心包(如 Kernel、GCC、GLIBC)统一版本与维护策略。这些包是操作系统的‘基石’,统一标准能减少重复劳动,让各方集中精力做差异化创新,如同大家共同建设地基,再各自加盖特色建筑。阿里云服务器操作系统 4.0 正是这一生态协同的产物,它基于龙蜥社区的技术底座,严格遵循核心包的统一标准,同时针对云与 AI 场景做了深度优化 —— 比如针对国产芯片的原生支持,能够实现‘一次适配,多平台运行’,这也是阿里云‘差异化竞争力’的具体体现。 ”
当然,核心组件的协同只是生态共建的起点,要实现真正的国产化突围,还需要构建一个多方共赢的生态系统 —— 这既是应对全球竞争的必然选择,也是技术持续迭代的核心支撑。周明辉指出:“生态的核心在于两个维度 —— 一是软件依赖网络中的生态位,即有多少下游软件、用户与市场依赖;二是社区参与度,包括开发者、企业、机构的贡献度,各方围绕价值诉求形成共生体系,如同一个热带雨林,不同物种相互依存、共同繁荣。” 他特别强调吸引年轻学子的重要性,“操作系统的未来在于年轻人,要通过开源大赛、课程合作等方式,让他们参与到社区建设中,如同培育树苗,为森林的未来储备力量”。
在这样的生态体系中,企业的参与并非单纯的 “慈善”,而是基于自身利益的理性选择,唯有形成利益共生的闭环,生态才能持续运转。马涛从产业视角补充了生态构建的关键:“技术决定生态的下限,而生态决定社区的上限。” 在他看来,健康的生态需要满足三个条件:一是开发者生态,吸引学生与爱好者 “为爱发电”——“我当年进入操作系统领域,就是因为兴趣,这种动力是持久的,如同艺术家对创作的热爱”;二是企业参与需找到利益回流点,“我们需要确保的是生态圈里的各方利益不冲突,形成 1+1>2 的效应,如同在一条产业链上,每个环节都发挥优势,共同提升整体价值”;三是清晰的定位与分工,“上游社区做好核心组件维护,中游发行版做好场景适配,下游企业提供服务与销售,形成良性链条,如同河流的上游、中游、下游各司其职,最终滋养整片土地”。
这种生态协同已初见成效。马涛透露:“龙蜥社区的包管理体系会对每个软件包打分,根据活跃度、更新频率、漏洞修复速度等指标推荐最优选择。这不仅降低了用户的使用门槛,也让上游开发者更重视包的质量 —— 形成正向循环,如同一个优质市场,买家与卖家相互促进,共同提升商品品质。”
4 未来展望:在产学研协同中定义下一代操作系统
对于下一代操作系统的形态,两位嘉宾一致认为 AI 将成为核心驱动力。周明辉预测:“传统架构的重构与全新架构的探索将长期并存。随着大语言模型能力的提升,未来可能实现‘用人话操作操作系统’—— 用户无需调用 API,只需自然语言指令,系统就能自动完成部署、调度等操作。”
马涛则从产业视角分享了阿里云服务器操作系统接下来的三大方向:一是持续优化核心组件,适配快速迭代的 AI 模型,“去年还是稠密模型,今年就变成 MOE(混合专家模型),参数规模从百亿级跃升到千亿级,操作系统必须紧跟这种变化,这也是我们在 Alinux 4.0 版本基础上规划下一代迭代的核心方向”;二是做好国产化算力的协同管理,“国内的 GPU、TPU 等异构芯片越来越多,操作系统要抽象硬件差异,让用户‘用起来一样方便’”;三是推动操作系统的智能化,“通过 AI 优化安全检测、运维调度、文件系统等模块,最终实现‘System for AI’与‘AI for System’的融合”。
产学研协同将加速这一进程。周明辉认为:“学术界可聚焦基础问题,比如新的调度算法、存储模型,通过‘小切口’突破;企业则擅长工程化落地,将学术成果转化为产品能力。” 他以形式化验证为例:“比如高校团队花数年时间攻克理论难题,然后企业则将其应用到内核开发中,只有这种协同才能真正解决问题。”
马涛补充道:“阿里与高校的合作模式有三种 —— 联合实验室聚焦长期方向,定向项目解决具体问题,开源合作吸引师生参与。比如在 AI for Security 领域,我们与高校合作训练大模型检测漏洞,既推动了学术研究,也解决了产业痛点。”
正如两位嘉宾所言,智算时代的操作系统正站在历史转折点上。无论是改良与革命并行的技术路线,还是 “立足全球化” 的国产化策略,亦或是 “价值共生” 的生态理念,其核心都是让操作系统真正成为 AI 时代的算力底座。在这条破局之路上,产学研的协同、企业的持续投入与开源生态的繁荣,将共同推动操作系统实现从 “适配 AI” 到 “原生驱动 AI” 的跨越,进而为全球智算产业发展注入中国力量。
栏目介绍:
在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里巴巴服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。
来源:极客邦科技