摘要:它最厉害的地方在于,能够记住你提供的特定人物或物体的样貌特征,不妨称之为“身份烙印”。无论是在什么样的场景下,无论人物在做什么动作,这个“身份烙印”都能保持高度一致,不会出现换人或者变形的尴尬情况。
视频生成的一致性问题一直是AI视频的行业通病,举个亲身经历的例子:
年初,我们接到过一个定制AI视频的项目,需要把一个真人嘉宾录制的视频进行动画化。
幸运的是,Runway就有视频转绘的功能。根据官方提供的示例,效果相当不错。
完美契合项目需求,我们斥巨资买下了一个月会员。
不幸的是,真正使用的时候才发现不对劲的地方,2分钟的视频,每次只能转绘其中的5秒。
更可怕的是,每次画风还不一样。导致最后用剪映把几十个转绘的视频拼接起来,我们看了一场嘉宾5秒一变的川剧变脸。
最后没敢把成品给嘉宾本人看,怕他真变脸了。
今天,腾讯混元开源了一款多模态定制化视频模型HunyuanCustom,专门解决一致性问题,而且支持多模态输入。
视频定制:让你的想象力动起来
假如你是一个内容创作者,或者广告策划人,甚至只是喜欢在社交媒体上分享生活。
那么你可能经常会遇到这样的情况:想要制作一段视频,但苦于没有合适的演员、道具或者场景?或者发现视频里的人物形象不够统一。
传统的视频生成工具,虽然也能做视频,但内容往往比较单一,而且很难根据的特殊要求进行调整。
HunyuanCustom的核心目标,就是要让视频制作变得像搭积木一样简单有趣,而且成品还能高度符合你的个性化需求 。
它最厉害的地方在于,能够记住你提供的特定人物或物体的样貌特征,不妨称之为“身份烙印”。无论是在什么样的场景下,无论人物在做什么动作,这个“身份烙印”都能保持高度一致,不会出现换人或者变形的尴尬情况。
HunyuanCustom能理解多种形式的指令。你可以给它一张图片,一段文字描述,还可以提供一段音频,或者一段背景视频,这种多模态驱动的能力,就像给了导演一个庞大的素材库和灵活的指挥棒,大大拓宽了视频创作的可能性 。
揭秘“魔法”:HunyuanCustom是如何炼成的?
那么HunyuanCustom是如何实现的呢?
首先,HunyuanCustom基于强大的视频生成基础模型,混元视频(Hunyuan Video)。
“看图说话”与“身份增强”:让主角活灵活现
第一个重要的工作室是专门处理看图说话任务的,也就是根据你提供的图片和文字描述来生成视频。
为了让机器更好地理解图片和文字之间的关系,研究人员引入了一个叫做LLaVA的翻译官。这个翻译官擅长理解图文并茂的信息。比如,你给了一张熊猫的照片,然后在文字里说“熊猫在打拳”,这个翻译官就能准确地把图片里的熊猫和文字里的打拳动作联系起来。
但只是理解还不够,要让视频里的人物始终保持一致,还需要一个身份增强器。
这个增强器的作用,就像给主角打上了一个非常深刻的“身份烙印”。它的原理很巧妙:它会把图片中的身份信息,像串珠子一样,串联到视频的每一帧画面中去。由于基础的混元视频模型本身就很擅长处理时间序列上的信息传递(就像讲故事一样,前后的情节要连贯),所以这个“身份烙印”就能在整个视频中得到有效的强化,确保主角从头到尾都是原装正品。
“闻声起舞”与“移花接木”:解锁更多玩法
解决了基本的图文生成问题后,HunyuanCustom还想解锁更多高级玩法,比如让视频里的人物跟着音频说话唱歌,或者把一个视频里的元素移植到另一个视频里。这就需要另外两个更专业的特效部门了。
对于音频驱动的视频定制,也就是“闻声起舞”,研究人员设计了一个名为AudioNet的模块 。
这个模块就像一个专业的音乐分析师,它能从音频中提取出不同层次的特征信息,然后巧妙地将这些音频特征与视频画面中的对应部分进行对齐。这种对齐不是简单的一一对应,而是一种分层对齐,就像一个交响乐队里,不同声部的乐器(音频特征)和不同演员的表演(视频特征)能够和谐地融合在一起。
而对于视频驱动的视频定制,比如你想把一段视频里的背景换掉,或者把一个新的人物P到一段现有视频里,这就需要一个视频条件注入模块 。
这个模块的工作方式有点像高级的抠图和合成。它会先把你要作为条件的视频(比如背景视频)进行压缩,把它变成一种机器更容易理解的浓缩精华(潜在表示)。然后,为了让这个浓缩精华能够和正在生成的视频内容更好地融合,研究人员还设计了一个基于patchify(可以理解为把图像切成小块)的特征对齐网络 。最后,通过一个巧妙的身份解耦的视频条件模块,把这些处理好的视频特征注入到生成过程中,实现天衣无缝的“移花接木” 。
值得一提的是,这些针对音频和视频的特效部门,它们的工作是和前面提到的“身份烙印”系统相对独立的 。这就好比,导演在指挥主角表演的同时,也可以独立地控制背景音乐和场景切换,互不干扰,从而实现更灵活的创作。
“大数据”喂养与“精细化”调教:打造火眼金睛的导演
俗话说,“巧妇难为无米之炊”。再厉害的导演,也需要大量的素材和经验积累。为了让HunyuanCustom能够准确理解并执行各种复杂的指令,研究人员为它准备了极其丰富和高质量的训练数据。
这个数据准备的过程,本身就像一部精密的流水线作业 。科研人员们从各种渠道收集了海量的原始视频数据,涵盖了人类、动物、植物、风景、交通工具、物体、建筑和动漫等各种类型 。
但是这些原始数据良莠不齐。所以接下来就是一系列严格的筛选和清洗工作。
首先,他们会使用像PySceneDetect这样的工具,把长视频切成一个个独立的短镜头,避免镜头切换对训练造成干扰 。然后,用textbpn-plus-plus这样的文本橡皮擦,去除视频中多余的文字、字幕、水印和logo等杂质 。接着,还要统一视频的尺寸和时长,比如把短边统一到512或720像素,时长控制在5秒以内 。
即便如此,有些细微的问题还是难以发现,比如一些渐变式的镜头转换,或者少量难以察觉的文字。为了确保视频的美观度、动态幅度和场景亮度都达到标准,研究人员还动用了koala-36M的质检员模型进行进一步的筛选 。他们甚至根据自己的数据特点,设定了专门的koala质检标准,可以说是非常严格了 。
“主角”提取与“多角色”协调
数据清洗干净之后,下一步就是要从视频中准确地揪出主角。
对于单个主角的情况,他们会先用Qwen7B模型给每一帧画面里的所有物体打上标签,并识别出它们的身份ID 。
然后通过一个聚类算法(就像给相似的东西归类),统计每个身份ID出现的频率,选出出现次数最多的那个作为目标主角 。如果是识别人脸,还会用到像YOLO和InsightFace这样的人脸识别专家来精确定位 。
如果视频里的是非人类主角,比如一只小狗或一辆汽车,他们会用QwenVL模型从视频中提取出描述这些主角的关键词,然后再借助GroundingSAM2这样的抠图大师,根据关键词生成这些主角的精确轮廓和边界框 。为了保证训练数据中各类非人类主角的数量均衡,他们还会对这些主角进行分类(比如动物、植物、交通工具等),然后进行平衡采样 。
处理多个主角的情况则更为复杂。研究人员利用QwenVL从单人视频数据中筛选出那些包含人与物体互动的片段 。
为了确保视频描述中的主角关键词和图片中的主角能够准确对应,他们使用Florence2模型来提取视频描述中提到的所有主角的边界框 ,然后再用GroundingSAM2进行精确提取 。
“美颜”与“配音”:锦上添花
除了主角提取,视频的颜值也很重要。研究团队使用了一个自研的结构化视频标注模型,为视频打上详细的描述标签,包括长短描述、背景风格、镜头运动等等 。这些丰富的标注信息,就像给视频增加了详细的剧本,有助于模型学习到更细致的视频内容。
在进行视频编辑,比如替换物体时,如果直接使用精确抠出来的物体轮廓(mask)进行训练,很容易出现问题。比如,你想把一个没有耳朵的娃娃换成一个有耳朵的娃娃,结果生成的视频里娃娃还是没有耳朵,这就很尴尬了 。为了解决这个问题,研究人员在训练时会用到一些小技巧,比如对轮廓进行轻微的扩张,或者直接把轮廓转换成简单的方框,让轮廓边缘不那么生硬 。这样处理后,最终编辑出来的视频效果会更加自然和符合预期。
对于需要配音的视频,他们同样有一套严格的处理流程。首先用LatentSync评估音视频的同步性,把那些口型对不上的片段淘汰掉 。同时,还会用hyperIQA评估音频质量,确保声音清晰悦耳 。最后,用Whisper提取音频特征,作为后续模型训练的输入。
经过这样一番精挑细选和悉心调教,大量的优质数据源源不断地喂养给HunyuanCustom,使其逐渐成长为一个能够理解复杂指令、生成高质量定制视频的超级导演。
实战演练:HunyuanCustom究竟有多强?
说了这么多,HunyuanCustom在实际应用中的表现究竟如何呢?研究人员进行了一系列严格的大比武,把它和目前市面上一些顶尖的视频定制方法(包括一些商业产品和开源模型)进行了全方位的比较 。
单人/单物定制:谁与争锋?
在生成单个特定人物或物体的视频方面,HunyuanCustom展现出了强大实力。无论是人物的面部特征、服装细节,还是物体的形状纹理,HunyuanCustom都能保持高度的身份一致性 。同时,生成的视频画面质量也非常高,动作流畅自然,并且能够很好地遵循文字提示的要求。
相比之下,其他一些方法就显得有些力不从心了。有的模型生成的视频,主角的脸看不太清楚,或者和原图不像(比如VACE) ;有的商业产品虽然画面质量不错,但第一帧有明显的“复制粘贴”痕迹,或者物体运动过快导致模糊(比如Keling) ;还有的在保持人物身份一致性上做得不错,但全身的连贯性就差一些了(比如Hailuo) 。
从测试数据上看,在身份一致性(Face-Sim和DINO-Sim)这项关键指标上,HunyuanCustom都取得了最好的成绩 。在文字与视频内容的匹配度(CLIP-B-T)和视频画面的时间连贯性(Temp-Consis)方面,也达到了业界领先水平 。
多人/多物互动:挑战升级!
当场景中出现多个需要定制的主角时,难度无疑会进一步升级。比如,要生成一段“一个人拿着薯片站在泳池边”或者“一位女士兴致勃勃地打开车门展示汽车”的视频 。
在这种多主体定制的场景下,HunyuanCustom依然表现出色。它不仅能够准确地再现人和物的身份特征,还能让它们之间的互动显得非常自然,并且视频内容也紧扣主题 。
而其他一些方法,有的虽然能生成指定的多个主体,但视频帧不稳定,比如人物突然消失,或者动作没有按照提示来完成(比如Pika) ;有的能部分捕捉到人物特征,但对非人类物体的细节就丢失严重了(比如Vidu和VACE) ;还有的则出现了严重的画面跳动和瑕疵(比如SkyReels A2)。
“虚拟广告员”与“虚拟试衣”:应用前景广阔
凭借强大的多主体定制能力,HunyuanCustom还能玩出很多以前难以想象的新花样。一个非常有趣的应用就是虚拟人广告 。只需要给模型一张人物照片和一张产品图片,它就能生成一段像模像样的广告视频。视频中的人物不仅形象逼真,产品上的文字细节也清晰可见,而且人与产品之间的互动非常自然,完全符合广告的意境 。
更进一步,如果再结合音频驱动的功能,还能实现“会说话的虚拟试衣模特”。比如你选定一个模特形象,再选一件衣服,然后输入一段介绍服装的音频,模型就能生成一段模特穿着这件衣服、声情并茂地进行讲解的视频。这对于服装电商、在线直播等领域来说,无疑具有巨大的应用潜力。
视频编辑:想换就换,想加就加
HunyuanCustom在视频编辑方面也展现了不俗的实力,比如视频主体替换 。给定一段原始视频、需要被替换掉的区域(用mask标出),以及一个目标主体的图片,模型就能把视频中的特定物体替换成你想要的样子。
与其它方法相比,VACE模型由于严格遵守输入的mask区域,导致替换后的物体边缘生硬,动作也不连贯 。而Keling模型则有明显的复制粘贴感,新加入的物体和背景融合得很差 。相比之下,HunyuanCustom不仅避免了边缘瑕疵,实现了与背景的无缝融合,还保持了被替换主体的高度身份一致性,编辑效果非常出色 。
说到底,这个“魔法”对我们意味着什么?
以前,想要制作一段精美的、符合自己想法的视频,可能需要专业的团队、昂贵的设备和复杂的软件。而现在,类似于HunyuanCustom这样的工具,让视频创作的门槛大大降低了。
对于内容创作者而言,这意味着他们可以更轻松地将自己的创意变为现实,制作出更具个性化和吸引力的视频内容。无论是制作虚拟人广告、虚拟试穿、会唱歌的虚拟偶像,还是进行精细化的视频编辑 ,都将变得更加得心应手。
对于普通用户来说,我们也可以用它来制作有趣的个性化视频,比如把自己的照片变成会动的视频,配上搞笑的语音,分享到社交平台。
当然,HunyuanCustom目前还处在不断发展和完善的过程中。研究人员也坦言,虽然模型在身份保持和多模态控制方面取得了显著进展,但在处理更复杂的交互、更精细的情感表达等方面,依然有提升的空间 。
如果想深入了解HunyuanCustom的奥秘,可以看看他们的原始论文,或者访问代码仓库。
代码地址:https://github.com/Tencent/HunyuanCustom
论文地址:https://arxiv.org/pdf/2505.04512
来源:码客人生一点号