摘要:2024年的政府工作报告中强调要“坚持教育强国、科技强国、人才强国建设一体统筹推进”“加快推动高水平科技自立自强”。作为基础研究的主力军和重大科技突破的策源地,高校需构筑算力基座,以算力赋能科研与人才涌动。而高性能计算(HPC)系统正是实现这一目标的重要力量。
本文转载自教育家杂志
随着信息技术的蓬勃发展,数字化与智能化的浪潮正席卷而来,算力渗透进各行各业,成为推动社会进步与产业升级的重要引擎,悄然引领着潮水的方向。
2024年的政府工作报告中强调要“坚持教育强国、科技强国、人才强国建设一体统筹推进”“加快推动高水平科技自立自强”。作为基础研究的主力军和重大科技突破的策源地,高校需构筑算力基座,以算力赋能科研与人才涌动。而高性能计算(HPC)系统正是实现这一目标的重要力量。
科学研究往往伴随着海量数据的产生,特别是在生物学、物理学、天文学等领域。高性能计算(HPC)系统可以在纷繁的数据和复杂的模拟中,缩短数据的计算时间,提高计算精度,同时借助英特尔至强可扩展处理器,推动科学研究的深入探索与发展。浙江大学生命演化研究中心的科研实践,就是联想HPC系统赋能科研创新最为生动的注脚之一。
01
稳定高效
破解科研算力瓶颈
远到探寻远古猿类的演化,近到揭示个体生命的基因秘密……浙江大学生命演化研究中心聚焦于生命演化领域前沿基础研究,致力于回答物种与生物性状多样性的来源及产生机制并探寻复杂生命现象背后深层的演化规律。
在浙江大学生命演化研究中心,计算机系统内置了丰富的高效精准的科研工具,比如构建进化树的IQ-Tree、基因组重复序列检测工具RepeatMasker、基因组结构注释软件BRAKER、全基因组比对软件CACTUS等。一系列工具的使用能够让科研工作者集成、分析和可视化大量数据集,而这也意味着需要非常强大的IT基础设施才能高效运行。
随着科研项目的多元化与数据量的增加,浙江大学生命演化研究中心对算力与存储空间的需求日益迫切,中心秘书何韵秋说:
“我们管理着大约10拍字节(PB)的数据,但这个数字正在快速增长。”
接踵而来的是计算瓶颈的时有发生。何韵秋表示,受制于硬件性能,他们访问数据的时间在拉长,“数据计算完了,但写入和读取的过程会耗费大量时间去等待,造成时间成本的浪费”。
为确保科研项目的顺利进行,升级HPC系统尤为重要。
研究中心与联想合作,部署了新的HPC环境,包括56台并行计算的联想ThinkSystem SR630 V3 服务器、4台大内存的联想ThinkSystem SR850 V3系统,搭配15PB容量的DSS-G存储平台,形成了稳定、高效、可扩展的计算环境。
60GB/s的出色带宽,以及采用第四代英特尔至强可扩展处理器,助力众多内置加速性能更进一步,让科研工作者更快地检索数据,在运行专门的分析应用程序时获得更短的响应时间,迅速完成大量数据的输入输出和分析,加快大规模、高复杂度的研究项目进程。
在具体的科研过程中,数据处理任务往往耗时冗长,需历经数周乃至数月方可完成。在此期间,计算机系统需持续不断地运行,因此,确保基础设施具备高度的稳定性十分重要。何韵秋说道,
“我们已经运行联想HPC环境数千个小时,没有发生任何事故,实现了99.9999%的数据可用性,提高了研究人员和学生的科研效率。”
联想HPC系统以高带宽、高可靠、高算力的特点,为高校科研架起算力高架桥,使科研工作者得到一定程度的“解放”,能更专注于科研本身,而非受限于技术问题。
02
算力驱动
科研更进一步
新科技革命呼啸而至。算力,到底能在多大程度推动科研更进一步?在浙江大学生命演化研究中心近日发布的研究成果“科阶元基因组揭示鸟类演化复杂性”中,我们或许可以找到答案。
自达尔文提出共同祖先理论和自然选择学说后,鸟类的起源、演化,不同鸟类之间的关系,始终是科学家们关注的问题。科研工作者使用的数据样本不够齐全,往往导致研究缺乏一定准确性。
浙江大学生命演化研究中心的教授张国捷联合国内外学者发起了万种鸟类基因组计划,并发布了第二阶段关于鸟类生命之树的研究成果。该研究以363种鸟类的全基因组比对数据为基础,研究团队分析了近千亿个碱基,并对得到的63430个1千字节(kb)基因区间对比序列进行推演、比较。
参与科研项目的博士研究生谢宇龙称,2008年国外团队相关研究涉及的鸟类物种是169种,数据量为32千字节(K byte),相比于鸟类约1G的基因组覆盖率非常低。如今,他们涉及的鸟类物种多达363个,实现了全基因覆盖,数据量为63兆字节(M byte),增加了近2000倍。
仅从数据上看,技术的更迭,尤其是算力的驱动,在不断深凿着科研的边界,推动生物科学领域滚滚向前、不断突破。毫无疑问,联想HPC系统功不可没,为科研路径、科研效率带来了实质助力。谢宇龙感慨道,
“只有在足够的算力支持下,我们才能提取到有效数据,才能完成如此庞大、复杂的数据分析。”
此次研究的开创性并未止于充足有效的数据量,更在于其重构并革新了现生鸟类的系统发育树,厘清了现生鸟类各类群之间的关系,提供了一套新的鸟类分类划分方案,解决了鸟类类群关系长达一个多世纪的争议,为正确理解鸟类物种演化及复杂性状演化提供了坚实基础,将改写教科书对鸟类类群的分类和关系论述。
“以大众熟知的火烈鸟为例。在过去,火烈鸟的定位十分模糊,曾按形态被科研工作者将其与鹤归为一类,后又有研究认为其与鸽类的关系较近。在广泛、精准地数据分析基础上,研究团队发现,火烈鸟其实是一种非常古老的鸟类,与䴙䴘(pì tī)共同组成了最古老的新鸟大类——奇迹鸟类。”
研究结果进一步支持,大量的新鸟类群经历的快速的辐射性演化发生于白垩纪-古近纪物种大灭绝事件界线后这一结论。谢宇龙补充,假若其他动物种群亦在同一历史时期经历了显著的增长或进化大爆发,科学家便能借此契机,系统性地探究引发此类大爆发的具体条件与机制。届时,需要更为完善、精进的技术支撑,为科研带来更多创新可能。
03
算力赋能
拔尖创新人才涌现
高校是拔尖创新人才培育的重要阵地。如何将发展科技第一生产力、培养人才第一资源、增强创新第一动力更好地结合,以最大化地促进科技创新与人才培养的协同发展,是当下高校科研中心亟须深入思考与探索的重要问题。
浙江大学生命演化研究中心以学科交叉融合为“催化剂”,融合生命科学、医学、信息科技等学科,致力于培育新一代拥有演化视角的综合型人才。参与科研工作的学生,不仅要深耕生命科学的理论,理解计算模型背后的数学原理,还需要熟悉、了解计算机相关知识。“不仅提升了专业能力,也拓宽了学术视野”,谢宇龙说道。
值得一提的是,联想高性能计算(HPC)系统的引入,为教学环境带来了革命性的优化,以澎湃算力加速学科交叉融合,推动拔尖创新人才不断涌现。学生们在科研探索中得以享受高性能算力的强大支撑,这不仅加速了他们对先进工具和技能的掌握,还促使他们在实践中不断汲取多学科知识,培养出独特的创新思维与演化思维,逐步成长为适应未来挑战的复合型人才。
当这些具备演化思维的拔尖创新人才不断涌入生命科学和医学的其他细分领域时,他们将引领该领域的专家学者从全新的演化视角审视人类疾病的起源、演化过程和对健康的深远影响,进而激发科研领域的全新突破与创新。
科技赋能时代,算力引领未来。作为全球领先的算力服务提供商之一,联想与浙江大学等高校合作共创,致力于通过构筑坚实算力底座,推动教育与科研发展,通过高性能计算应用,强化科研攻关,为建设教育强国和创新型国家注入全新动能。
来源:芬芬讲科学