摘要:想象一下:只需一张静态图片,系统就能自动生成一段「动态的、有声音的」的短视频,画面中的人或物做出自然动作变化的同时,也发出对应的声音——比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声,这正是「图像转有声视频(Image-to-Sounding-Video, I2S
想象一下:只需一张静态图片,系统就能自动生成一段「动态的、有声音的」的短视频,画面中的人或物做出自然动作变化的同时,也发出对应的声音——比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声,这正是「图像转有声视频(Image-to-Sounding-Video, I2SV)」的目标。
近日,来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。
论文标题:Animate and Sound an Image
项目主页:https://anonymoushub4ai.github.io/JointDiT
为什么图像转有声视频是「AI 多模态生成」的新蓝海?
人类对世界的感知本质上是多模态的。视觉与听觉作为最主要的感官通道,通常以协同互补的方式构建起完整的认知体验——枝叶摇曳伴随沙沙风声,浪花飞溅伴随潮汐轰鸣,这些视听融合的场景不仅丰富了感官感受,也承载了我们对物理世界深层次的理解。
尽管近年来生成模型在单一模态的内容合成上已取得长足进展,如生成高保真的视频画面或自然的音频片段,但视觉与听觉这对天然耦合的模态,长期以来却被拆分为两条相对独立的研究路径,缺乏统一的建模机制。
最近,谷歌在其视频生成模型 Veo 3 中引入了同步音频的功能,让视频生成真正迈入「有声时代」,成为行业关注的亮点。与这一趋势不谋而合,本文首次提出并系统定义了图像到有声视频生成(Image-to-Sounding-Video,I2SV)这一新任务:让静态图像「动」起来的同时,生成与之语义匹配、时间同步的音频内容。
虽然当前已有技术能够分别实现从图像生成视频或音频,但将两者「拼接」在一起往往难以自然融合,常见的问题包括语义错位与节奏失调:比如视频中的小狗并未张嘴,却配上了汪汪的叫声;又或是吠叫的动作刚发生,声音却慢半拍甚至不协调。
因此,如何从一张图片出发,生成同时具备视觉动态性与听觉一致性的完整「视听视频」,成为多模态生成领域亟待突破的关键挑战。
JointDiT:实现图像 → 同步音视频的联合生成
任务定义 :这项研究把图像转有声视频任务(I2SV)定义为:以静态图像作为输入条件(并看作输出视频首帧),生成一个语义匹配、时序同步的「视频 + 音频」(有声视频)片段。
解决方案 :论文提出了一种全新架构 JointDiT,探讨了如何利用两个强大的单模态预训练扩散模型(一个视频生成器,一个音频生成器),在其上构建统一的联合生成框架实现多模态协同生成。
其主要设计包括:
分解与重组预训练模型,实现联合生成框架
为了构建高效的图像转声音视频模型,JointDiT 采用了「重组 + 协同」的创新思路:首先,作者对预训练的音频和视频扩散模型进行层级解构,将每个模型划分为三大模块:输入层(负责模态嵌入)、专家层(模态内部理解与压缩)、输出层(解码生成)。随后,在两个模态的专家层之间引入联合注意力机制与前向模块,形成核心的「Joint Block」,实现音视频间的深层交互。最终,通过共享 Joint Block、独立输入输出层的设计,JointDiT 在保持模态差异处理能力的同时,实现了真正协同的多模态生成,创新性地实现了从一张图片直接生成同步音视频内容。
引入感知式联合注意力,精准建模跨模态互动
传统的在全序列(音视频序列)上应用自注意力机制(Full Attention)难以处理视频与音频在时间、空间、频率维度上的异构差异。JointDiT 专为此设计了感知式联合注意力机制(Perceiver Joint Attention),使用模态特定的 Query-Key-Value 映射,实现对视频帧与音频序列之间的细粒度互动建模,有效提升同步与语义一致性。
联合引导机制,兼顾条件控制与模态协同
传统的无分类器引导(classifier-free guidance, CFG)技术主要用于强化生成结果对条件的响应,同时抑制低质量输出。但在多模态生成中,单纯的条件对齐并不足以保障音视频之间的深度协同。为此,JointDiT 提出联合无分类器引导(JointCFG)及其增强版 JointCFG*,在保留图像条件引导对齐的同时,强化了模型对跨模态之间交互的关注,进而提升了音视频之间的语义一致性与时间同步性。该策略不仅优化了生成质量,还显著增强了视频的动态表现力。
实验结果如何?高质量、高一致性!
研究团队在三个标准数据集(AVSync15、Landscape 和 GreatestHits)上进行了大量测试,从视频质量、音频质量、同步性和语义一致性四个维度全面评估。
结果显示,JointDiT 在视频质量与音频自然度方面均实现显著提升,FVD、FAD 等核心指标全面优于基于 pipeline 组合的多阶段方法。音视频同步性表现优异,在自动评价指标上与当前最强的音频驱动视频生成模型持平。语义匹配也更为精准,视频画面与声音的「含义」更加契合。
相比之下,诸如 CogVideoX、HunyuanVideo 等文本驱动的大模型,虽然具备强大的生成能力,但由于依赖图片生成文本描述(caption)作为中介,过程中伴随大量视觉信号丢失,导致最终画面和输入图片匹配度(如 FVD、IB-IV 指标)表现不如直接采用图像生成音视频的 JointDiT。事实表明,直接建模图像到音视频的统一路径,能更有效保留原始视觉信息,生成结果更加真实一致。
在用户主观打分测试中,JointDiT 在「视频质量」、「音频质量」、「语义一致性」、「同步性」与「整体效果」五项评分中均排名第一,领先第二名近 20%。
结语与展望
JointDiT 的提出,不仅是一次生成技术的突破,更彰显了 AI 向多模态统一建模演进的趋势。它不仅可应用于娱乐内容创作、影视制作等实际场景,也为多模态通用模型乃至「世界模型」的研究提供了新的思路与启发。接下来,研究团队计划将 JointDiT 扩展至图像、文本、音频、视频四模态的联合建模,为构建更通用、更智能的多模态生成系统奠定基础。
未来,或许我们只需一张照片、一段文字,就能完整听到看到它讲述的故事。
来源:晚晚的星河日记一点号