厦门高校创新实验室智算300节点成功迁移到元脑KOS操作系统

360影视 2025-01-10 10:49 2

摘要:随着CentOS停更,用户无法获得安全补丁和漏洞修复,导致系统安全风险大幅增加、稳定性下降。对于依赖特定软件环境的高校及科研机构,还可能出现系统与应用软件兼容性问题,影响科研项目进度并增加额外适配成本。

随着CentOS停更,用户无法获得安全补丁和漏洞修复,导致系统安全风险大幅增加、稳定性下降。对于依赖特定软件环境的高校及科研机构,还可能出现系统与应用软件兼容性问题,影响科研项目进度并增加额外适配成本。

面对这一问题,厦门高校创新实验室(简称实验室)将OS迁移至龙蜥商业版服务器操作系统元脑KOS V5.8,方便用户使用各类业务软件,促进AI+Science科研创新进程。KOS团队通过提供定制化镜像,预置Lustre、Slurm等科学计算场景软件包,快速适配支持120+科学计算应用软件,同时研制配套集群部署脚本,实现了7天高效迁移300台节点。

软硬件环境复杂,操作系统迁移面临挑战

作为国内领先的能源材料领域“科技加速器”与“产业发动机”,实验室面向先进材料、氢能、半导体、未来显示技术等7大领域方向,打造支撑AI for Science科研新范式的智算平台。硬件方面配置了数百个异构计算节点,多个胖节点及管理节点,为大规模科学计算、模拟仿真、数据处理和分析存储等需求提供了有力的支撑;软件方面,为了支撑能源、信息、制造等领域科研项目,智算平台部署120+款多学科、跨单位交叉业务软件,并且需要不断进行软件升级,以满足日益增长的计算需求。

此前,中心全套业务系统运行在CentOS 7.5之上,随着CentOS 7停更,导致一些业务软件无法使用,并且系统存在安全隐患,迫切需要对原有操作系统进行迁移。面对如此庞大复杂的系统环境,操作系统迁移可谓是一项挑战 。

首先,新系统需要与原有软硬件环境兼容适配,确保业务系统在迁移后能够稳定运行。在实验室中存在大量应用软件,如有限元素法软件abaqus、经典分子动力学模拟软件Lammps、分子动力学模拟程序包GROMACS、DFT计算和分子动力学模拟软件CP2K等,新操作系统要适配上述业务软件,保障运行可靠性与稳定性。

其次,操作系统迁移要尽量减少对现有业务影响,这就意味着迁移工作必须迅速高效。实验室服务于厦门市及福建省众多高校、科研机构与企业的重大课题与产学研合作项目,操作系统切换需要尽可能地平滑稳定、用户无感知,避免影响当前集群的对外服务能力。

最后,为了应对高速增长的大规模科学计算需求,实验室需要在操作系统切换过程中,对现有IB卡驱动、Slurm版本及关键部件驱动进行同步优化升级,新操作系统要能够支持最新驱动版本。

“三步走”实现7天迁移300节点,树立行业典范

浪潮信息为实验室量身定制了从CentOS到KOS的迁移方案,摸排用户环境的硬件配置、软件环境、数据规模等,充分评估迁移可行性并识别风险,通过“三步走”稳健推进,实现操作系统平滑迁移。

从CentOS到KOS迁移方案

■ 首先,计算节点与管理节点兼容性测试。KOS团队在计算节点集群中剥离出部分节点,验证计算节点更换KOS后能够正常访问、调用存储节点上的业务软件;同时选取与管理节点配置一致的机器,作为新集群的管理节点,部署集群管理业务、进行兼容性测试。

■ 其次,管理节点数据迁移。KOS团队利用剥离出来的机器搭建新集群,并将旧集群管理节点数据迁移到新集群中。此时新旧集群并存,旧集群对外提供服务,新集群进行业务测试。

■ 最后,计算节点分批升级。新集群测试完成后,KOS团队根据当前用户任务情况,分批次添加计算节点,直到新集群中的计算节点占到总集群的60%(剩余40%继续在旧集群中提供服务),且用户作业不受影响,则启用新集群对外提供服务,同时停止旧集群。最后,剩余40%计算节点加入新集群,完成全部升级。

“三步走”替换示意图

此次升级,不仅解决了 CentOS 停更所带来的生态缺失、业务中断隐患,也为用户带来了更佳体验。

兼容更优:KOS高度兼容实验室异构化硬件平台,以及全部存储软件与应用软件,确保了用户操作习惯无缝衔接,同时针对计算节点、管理节点及业务软件进行全面的版本优化升级,为用户提供更加流畅、高效的科研环境。目前KOS已与1200款硬件板卡、250款服务器整机、400款数据库及中间件实现兼容适配。

效率更高:KOS进行了定制化镜像开发,将GPU驱动、IB卡驱动、Lustre客户端、Slurm、OpenLDAP等核心软件升级为最优版本并集成到镜像中,以“开箱即用”的模式完成升级替换。

丝滑无感:迁移过程采取了“小步快跑”策略,通过细致入微的集群业务摸排评估,以及小批量节点迁移、测试、验证,确保CentOS平滑稳定迁移至KOS,全过程风险可控,在最短的空窗期内完成新旧集群服务交割,用户无感知持续进行科研工作。

实验室负责人表示:“在CentOS停止维护的紧迫形势下,KOS为我们提供了及时且高效的解决方案。KOS的稳定、可靠与高度兼容性,让用户可以更简单便利地编译和安装大部分最新版本的计算软件,无需再应对各种版本过低导致的兼容问题。对于有兴趣追求性能或者探索新特性的用户,也有诸如XPMEM等新功能可供使用。有了KOS的帮助,让我们对未来的科研创新充满信心。”

来源:科技星辰琼海

相关推荐