五大创新,三大特色!联想万全异构智算平台HPC版正式发布

360影视 动漫周边 2025-03-11 18:13 2

摘要:在当前人工智能浪潮席卷全球之际,大型模型的训练与推理需求急剧增长,企业对人工智能应用的规模迅速扩大,许多企业面临高性能计算(HPC)集群与智能计算集群并存的局面:传统的HPC集群专注于科学计算任务,而新兴的智能计算集群则专注于大型模型的训练、推理和数据分析。

在当前人工智能浪潮席卷全球之际,大型模型的训练与推理需求急剧增长,企业对人工智能应用的规模迅速扩大,许多企业面临高性能计算(HPC)集群与智能计算集群并存的局面:传统的HPC集群专注于科学计算任务,而新兴的智能计算集群则专注于大型模型的训练、推理和数据分析。

两套集群系统的并存导致资源分散管理,不仅引发了资源的闲置与浪费,还增加了管理的复杂性和负担。在超智融合的趋势下,实现HPC集群与智能计算集群的统一管理和调度成为一项挑战。然而,联想万全异构智算平台HPC版的最新升级为解决这一挑战提供了可能

HPC应用专注于解决复杂的科学与工程问题,如气候建模、流体动力学模拟、基因组测序等,其核心竞争力在于大规模并行计算的高效数据处理能力。而AI应用则专注于数据分析、模式识别和模型训练,主要用于自然语言处理、计算机视觉、自动驾驶等领域。

因此,这两种应用对资源的需求存在显著差异。HPC侧重于通用计算能力(CPU)、大规模并行处理和高带宽存储;而AI则更依赖于GPU/TPU等硬件加速器,以及低延迟的网络和存储,以支持高效的矩阵运算和实时数据处理。

这种差异导致了两者在硬件和软件优化上的不同侧重点,同时也使得两个集群在资源需求上相互依赖,特别是在资源分配不均时,统一资源调度的重要性愈发凸显。

然而,这两种集群在部署与管理方法上存在显著差异。例如,高性能计算(HPC)应用通常部署于裸金属服务器,并依赖于诸如Slurm、ISF、PBS等调度系统;而人工智能(AI)应用则部署于Kubernetes集群,并由Kubernetes平台负责调度。这导致了两个系统之间资源共享的难度显著增加。

传统方法中,共享资源通常需要在另一个平台上重新部署一套系统。例如,若AI应用需利用HPC集群资源,则必须在HPC集群上部署Kubernetes;反之亦然,这一过程相当复杂。

联想万全异构智算平台2.0 HPC版本通过集成五大创新技术,成功解决了这一技术难题。该平台实现了Kubernetes(K8S)与Slurm调度器的整合,构建了AI与HPC的融合调度机制,并创建了混合算力资源池,从而显著提升了算力使用效率。

现在,借助该平台,Kubernetes可以调度Slurm管理的资源。这种融合的负载调度策略不仅实现了计算资源的高效共享,还提升了系统整体的稳定性和运行效能,从而提高了资源利用率,避免了资源浪费,并实现了成本节约。

除了支持AI集群与HPC集群的融合调度外,万全异构HPC平台还提供了全面的工具集,用于简化集群部署和高效管理。

平台具备强大的资源监控、性能分析、能耗管理、智能调度和云扩展功能,显著降低了运维复杂度,同时提升了集群资源利用率和任务执行效率。

此外,万全HPC平台的用户应用模块提供了丰富的应用作业模板和通用作业模板,并支持用户轻松创建自定义模板。平台还集成了多种开发工具,帮助用户快速上手。

通过这些模板和工具,万全异构HPC平台大幅降低了HPC和AI用户的学习门槛,显著提升了用户在HPC应用和AI训练任务中的开发与运行效率。

联想万全异构HPC平台还集成了主流的开发环境,包括英特尔的OpenAPI生态和英伟达的CUDA生态,加上联想的支持服务,能够更好地满足中国市场的定制化产品需求,帮助客户快速完成应用的开发和上线,实现算力需求的全生命周期管理。

目前,新版联想万全异构智算平台HPC版已经投入使用。它的推出无疑将加速超智融合的进程,为科研机构、智能制造企业、人工智能企业数字化转型提供更有力的支持,共同迎接智能时代的到来。

来源:一起联想

相关推荐