我国算力多元异构特点突出 专家支招破解异构算力调度使用瓶颈

360影视 2025-01-01 19:16 4

摘要:据中央广播电视总台经济之声《环球新财讯》报道,我国现有算力中,CPU、GPU种类较多,不同算力资源组合在一起,就是多元异构算力。这样的算力怎么调度分配,怎么才能更好用?在日前举行的“先进算力中心的发展与挑战”研讨会上,多位专家和业内人士提出了建议。

央广网北京1月1日消息(记者吕红桥)据中央广播电视总台经济之声《环球新财讯》报道,我国现有算力中,CPU、GPU种类较多,不同算力资源组合在一起,就是多元异构算力。这样的算力怎么调度分配,怎么才能更好用?在日前举行的“先进算力中心的发展与挑战”研讨会上,多位专家和业内人士提出了建议。

根据中国信通院的数据,截至2024年6月,我国在用算力中心机架超过830万标准机架,算力规模达246EFLOPS,智算同比增速超过65%。中国科学院计算技术研究所研究员张云泉说,尽管我国算力规模持续增长,但算力供需品种错位的问题依然存在,面向人工智能、高性能计算等高端应用的算力缺口依然巨大。他表示,目前来看,我国在大模型应用方面走在了前列,但如果基础大模型的能力不够,做出来的应用再好,早晚也会过时,所以要提前储备算力软硬件,提升基础大模型的能力。

张云泉介绍:“美国的‘星际之门’这几个大项目都是投入1000亿美元以上的项目,我们国内没有一家公司能有1000亿美元的投入。到底哪个厂家的芯片能够有希望支撑未来大规模的、百万张卡的并行训练,数据怎么准备,包括标准,有很多问题都需要提前做准备。”

当前,我国算力资源的一大突出特点是多元异构。市场上主流CPU生态有5种以上, GPU生态则多达10种以上,不同的算力芯片、服务器形态、存储形态,以及网络形态组合配置在一起,可以形成成百上千的组合。如此多元异构的算力如何提供给客户?

国家超级计算济南中心主任王英龙建议,打造统一的算网服务门户。“要打造统一的算网服务门户,提供算力软件数据和标准化接口等多元化的服务。实际上提供计算服务是不容易的,算力资源的接入怎么来度量,在使用的过程中怎么实时监控它的状态。在电力系统里有两个很重要的概念,一个是瓦,一个是度。在算力平台里,不同架构,不同资源怎么度量,确实是一个比较复杂的问题。我们现在正在边应用边研究这些事情。”

在破解异构算力调度使用瓶颈方面,全国多地都在探索,有的地方取得了显著进展。今年5月,“山东算网平台”正式上线,这是全国首个覆盖省级区域的算网基础设施,成功实现多元算力的高效汇聚、纳管和服务。

异构智算产业生态联盟副理事长黄山也建议,构建异构智算平台,统一纳管异构算力,实现对异构计算集群的高效管理调度和可用性保障,让客户轻松获取融合、稳定的通用AI和科学算力。他表示,异构智算平台要实现软件的互操作性。“包括对指令集、算子、驱动、编程接口和操作系统、调度器、任务编排进行整体软件栈的垂直兼容。我们也在和几个研究院一起,希望能够做算子横向打通工作,把底层的这些烟囱式问题变成未来统一编译、统一输出的结果。”

更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。

来源:央广网

相关推荐