国内首个视频生成训练框架 TeleTron 开源!支持分钟级高清视频生成训练

360影视 欧美动漫 2025-05-17 15:00 2

摘要:从硬核逼真的科幻特效,到飘逸玄幻的武侠场景;从虚实难辨的人物动态,再到层次丰富的镜头语言……AI生成视频正以肉眼可见的速度进化,并快速嵌入影视行业及更多产业的工作链条,完成从“玩具”到“生产力工具”的身份转变。

从硬核逼真的科幻特效,到飘逸玄幻的武侠场景;从虚实难辨的人物动态,再到层次丰富的镜头语言……AI 生成视频正以肉眼可见的速度进化,并快速嵌入影视行业及更多产业的工作链条,完成从“玩具”到“生产力工具”的身份转变。

如今,在短剧、广告、电商、教育等领域,AI 视频的需求量激增。根据相关市场调研报告显示,视频生成类 AI 产品的企业级用户占比约四成;单单在微短剧这一细分市场,AI 驱动制作的科幻奇幻类短剧占比达到了 35%;在播放量破亿作品中,更是有 70% 使用了 AI 生成特效。AI 视频生成大模型,大大缩短了从创意到成片的环节;同时,其对内容生产成本的压缩,也催生了前所未有的产业需求。

海量的视频生成需求,对模型的训练质效提出了更高要求。但如今,无论是希望快速训练视频生成大模型赋能自身业务的中小企业,抑或是广大开发者,都面临着这样的技术难题。一方面,开源社区中尚未形成主流的视频生成模型训练框架,训练难度大,技术壁垒高;另一方面,通用的开源训练加速方法(如 DeepSpeed、FSDP 等)无法支持长序列的高清视频生成,且训练效率一般,算力消耗大,对于中小企业来说,训练成本高企,更难实现后续微调和业务落地。

针对这些行业痛点,中国电信人工智能研究院(TeleAI)原创打造了国内首个支持长视频(分钟级)和超高分辨率(2K)的视频生成大模型训练框架——TeleTron,并已开源。该框架是中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领 AI 基础设施研发团队在多模态预训练领域的最新成果,为视频生成模型的训练提供了更强大的底层支持。

训练过程提质增效 大小场景弹性扩展

TeleTron 通过一系列技术创新,在长序列支持、训练效率、系统灵活性等三大维度实现了突破,让视频生成大模型的训练提质增效。

长序列训练能力突破极限:

当前的大部分视频生成大模型,输出片段时长大多还停留在几秒钟,依然难以摆脱“PPT 式短片”的属性。割裂碎片式的画面,更不利于打造完整的剧情故事和流畅的观看体验。

造成这一困境的原因之一,在于现有的训练框架在视频生成场景上,普遍存在显存容量不足和计算优化手段有限的问题,通常仅支持几秒的 720P 视频训练。单靠堆砌算力,依然无法突破视频长度天花板。

而 TeleTron 通过 4D 混合并行(数据并行+张量并行+序列并行+分布式优化器),巧妙地将数据维度、模型维度、序列维度以及优化器状态在多设备间划分,实现了更高效的计算和显存资源利用。

数据并行将模型复制多份,允许更大批次训练;张量并行将模型参数按维度拆分,避免了整模型复制造成的显存浪费;序列并行将长时间维度的视频序列划分到多个设备上,使得每张卡只需处理一部分序列;分布式优化器将显存开销极大的优化器状态拆分存放至多卡,避免了参数冗余,从而显著提升长序列视频的训练能力。

根据上图中的实测数据,可以发现 TeleTron 具有以下特点:

容量大:训练 720P 分辨率的视频,帧数远超 DeepSpeed 等现有框架,甚至可以容纳 2K 分辨率的视频生成训练。容量与算力正相关:TeleTron 可容纳视频帧数随算力资源增加而增加,而 DeepSpeed 在更多算力加持下依然无法容纳高帧数或高分辨率视频生成训练,出现内存溢出 OOM(Out-of-Memory)问题。

因此,TeleTron 能够实现更长时长的视频生成训练,为更连贯、更专业的 AI 影视创作提供土壤。

打破效率瓶颈节省算力成本:

随着视频生成技术的产业化应用速度加快,训练效率已成为大模型落地的关键瓶颈。当前主流的视频生成模型训练过程,普遍面临长序列处理、多模态数据融合等高复杂度需求,动辄调用数千块 GPU 集群连续运算数周。未经优化的训练流程会导致计算资源消耗激增,徒增训练成本。

针对这一问题,TeleTron 通过算子融合及并行计算优化,通过将前后连续的计算操作合并为统一算子,减少中间数据的读写、调度开销和显存访问频次,有效降低执行延迟,例如对 RmsNorm 算子可以实现 5.4 倍提速;结合 4D 并行策略,充分利用多张 GPU 的算力资源,实现更高的吞吐率与更高效的训练性能。在相同硬件条件下,相比 DeepSpeed 等开源框架,训练速度更快,资源利用率更高。

从上图的实测数据可以看出,从 256P 到 2K 分辨率的视频,TeleTron 都可以训练,而 DeepSpeed 对 720P 以上的高帧数视频无能为力;并且 TeleTron 在 480P 视频的训练效率比 DeepSpeed 高 10% 以上,提效显著。

灵活扩展,适配大小训练场景:

目前,视频生成大模型正朝着更大参数规模、更高分辨率画面、更长视频时长的方向演进。在模型的训练过程中,需要同时满足研发阶段的小规模实验验证,以及商业化落地的超大规模集群训练需求。

然而传统训练工具如全切片数据并行(FSDP)存在明显局限,尽管可通过参数/梯度切片降低单节点 GPU 消耗,但在多节点扩展时通信开销呈指数级增长,不适合大集群训练。这种矛盾推动着训练框架向可灵活切换以适配大小训练场景的方向发展。

TeleTron 训练架构的 4D 并行策略支持灵活切换,使并行单元可以根据算力规模灵活重构,让 TeleTron 无需依赖单一并行方式,可在多种训练规模下保持训练效率与资源利用率的协同最优,在小规模实验和大规模集群训练中均表现优异。

不管是集群规模还是模型规模上的扩展,TeleTron 都可以灵活适配。在集群规模扩展层面,由于 TeleTron 的通信开销增长远低于 FSDP,在16节点及以上规模仍能保持近似线性的性能增长曲线 (linear scaling)。而在模型规模扩展层面,TeleTron 通过调整张量并行(TP)规模,可支持 30B 以上多模态大模型训练,推动模型性能突破。

无论是学术机构的小规模实验,还是企业级超大规模训练,TeleTron 都能提供稳定、高效的训练支持。

开源成果共享 助力视频生成百花齐放

作为最早布局人工智能的央企科研机构,TeleAI 持续深耕原创技术的研发和落地,目前已打造全模态、全尺寸、全国产的“三全”星辰大模型体系。

自去年年底发布视频生成大模型以来,TeleAI 正持续推进训练的优化,让生成速度更快,画质分辨率更高,输出效果更强。目前,TeleTron 训练框架已经投入“实战”,支持 TeleAI 自研 VAST(Video As Storyboard from Text)二阶段视频生成技术的训练加速,并使 2K 分辨率视频生成训练成为可能。

面向产业应用,TeleTron 通过优化训练效能,显著降低高分辨率长序列视频生成技术的研发成本,赋能中小企业及开发者基于轻量化算力实现领域定制化模型迭代,促进视频生成模型在影视、广告、教育等多领域的商业化应用。

面向学术领域,TeleTron 的开源,将打破视频生成训练的技术壁垒,为高校及科研机构提供更便捷的训练架构支持。

既支撑基础理论探索,又能适配产业级模型研发需求,加速科研成果转化,促进产学研用协同,为视频生成领域的技术演进提供可持续的创新生态。

TeleAI 期待与广大开发者、企业合作伙伴及科研机构携手,共同开拓 AI 视频生成技术的无限可能,推动智能创作生态的持续进化。

开源地址:

来源:TeleAI

相关推荐