陈云霁团队综述:面向大模型训练的智能计算系统

360影视 日韩动漫 2025-03-12 13:20 2

摘要:JCST于2025年第1期出版一篇关于智能计算系统的综述论文“AI Computing Systems for Large Language Models Training”。该论文系统梳理了面向大语言模型(LLM)训练的智能计算系统,涵盖算法设计、硬件基础设

JCST于2025年第1期出版一篇关于智能计算系统的综述论文“AI Computing Systems for Large Language Models Training”。该论文系统梳理了面向大语言模型(LLM)训练的智能计算系统,涵盖算法设计、硬件基础设施和软件优化等不同方面,分析了主流大语言模型的训练与推理过程,阐述了相关硬件平台的发展趋势与技术挑战,探讨了分布式计算、存储管理和计算效率优化的关键技术,为后续的研究方向提供参考及思路。值得注意的是,研究视野延伸至2024年行业前沿,通过纳入DeepSeek系列模型的最新进展,为“算法-硬件-软件”协同优化研究提供了实证支持。本篇综述由来自中国科学技术大学、中国科学院计算技术研究所、寒武纪科技和中国科学院软件研究所的多位学者共同撰写。

核心观点

1

大语言模型(LLM)的快速发展依赖于高性能计算系统,但现有硬件难以满足其庞大的计算和存储需求。

2

Transformer架构中的注意力机制是计算与存储的核心瓶颈,优化其运算密度和执行效率是提升系统性能的关键。

3

大语言模型发展需要突破现有硬件性能限制,通过设计面向分布式环境的异构计算节点和加速器实现训练场景性能优化。

4

大语言模型训练存在显著的软件优化需求,涵盖分布式任务调度、存储管理和算子效率提升等。

5

大模型计算系统需要在算法、硬件和软件之间实现深度协同,通过创新算法结构、硬件软件协同设计以及智能调度策略,推动未来智能计算系统的发展。

本文系统梳理了面向大语言模型(LLM)训练的智能计算系统,从算法设计、硬件平台和软件优化三方面深入分析了核心问题与关键技术。在算法设计方面,Transformer架构中的注意力机制涉及Softmax归一化、缩放操作和批量矩阵乘法,运算密度较低,受限于访存速率瓶颈。同时,长文本输入和超大参数模型进一步加剧了存储容量压力。因此,优化模型结构及计算模式成为关键方向,近年来的研究重点包括高效注意力机制、稀疏注意力、低秩分解等方法,以减少计算量和访存开销。硬件层面,尽管异构计算节点与分布式集群能够支撑模型规模扩展,但分布式训练依赖大规模数据同步,高通信开销和受限的存储容量仍是影响整体效率的关键瓶颈。近年来的优化方向主要聚焦于提升深度学习处理器的计算与存储能力,以及增强集群互联性能。系统软件作为连接算法与硬件的关键层,涵盖任务拆分、调度策略、容错机制及计算内核优化等问题。当前,并行计算策略、任务调度与恢复机制显著提升了分布式计算的可扩展性和容错能力,重计算与数据卸载有效降低了片外存储占用,量化和算子优化进一步提升了训练与推理效率。然而,在任务调度和资源分配的全局优化方面仍然面临挑战,有待进一步突破。

本文旨在为大语言模型计算系统的研究提供系统性参考,并为相关领域的技术创新与实际应用带来启发。展望未来,智能计算系统的发展需在三方面取得突破:一是探索更高效的算法架构,优化注意力机制的计算效率和存储需求;二是推动硬件与软件的深度协同设计,提升资源分配的动态性与系统整体效率;三是开发全局视角的智能调度策略,优化资源利用以满足更大规模的任务需求。DeepSeek V3体现了这些技术趋势的最新进展。该模型采用 MLA注意力机制优化推理与训练效率、MoE多专家架构提升计算效率、FP8量化训练减少存储开销,并通过流处理单元切分与跨节点All-to-All通信提升数据传输效率。此外,其负载均衡策略也进一步提高了资源利用率。这些技术不仅推动了智能计算系统向更高效的计算架构、更紧密的软硬件协同,以及更智能的资源调度方向发展,也为大规模智能计算系统的研究和应用提供了重要借鉴。

图1. 面向大语言模型(LLM)的人工智能计算系统总体架构

图2. 面向大语言模型(LLM)的人工智能计算系统分类

计算技术期刊群 ICT-Journals

中国科学院计算技术研究所主办或承办了《计算机研究与发展》《计算机学报》《计算机科学技术学报 (英文)》(Journal of Computer Science and Technology, JCST)和《计算机辅助设计与图形学学报》四本学术期刊,均为我国计算领域高质量科技期刊T1类期刊。其中:中文刊均为CCF推荐中文科技期刊A类,被EI、Scopus等数据库收录;英文刊为CCF推荐国际学术期刊B类,被SCI、EI、Scopus等数据库收录。四刊人力协同、资源汇聚,以计算所刊群(ICT-Journals)形式,为计算领域的学术交流与传播提供服务。

来源:CCFvoice

相关推荐