摘要:最近他们开源了一个全新的视频生成框架 —— HunyuanCustom,主打两个关键词:身份一致性 和 多模态输入,直接命中当前AI视频的两个痛点!
腾讯混元在AI视频上又放大招了!
最近他们开源了一个全新的视频生成框架 —— HunyuanCustom,主打两个关键词:身份一致性 和 多模态输入,直接命中当前AI视频的两个痛点!
看了他们的开源日直播之后,真的感觉这一步跨得很大,是向“可用AI视频”迈进的重要一步。不管是生成短片、制作电商广告,人物不能“变脸”、内容能稳定控制,这都是基础中的基础。
来看看 HunyuanCustom 的“身份一致性”表现有多惊艳:
单主体场景:给定一张男生或女生的照片,系统可以在不同场景中——比如工作、学习、遛狗等——都保持人物的脸型和气质不变,表现非常稳定。
多主体场景就更精彩了:
比如,和熊猫对打(而且熊猫不糊、不飘)
再比如,小哥举着乐事薯片讲解,全程薯片这个“第二主角”都没有消失、扭曲或者漂移,做广告简直让甲方妈妈都能放心了!
动作的自然程度也让人眼前一亮:女生奔跑后转身拥抱男生,整个过程衔接自然,没有那种让人出戏的“AI味”。
另外,HunyuanCustom 还支持多模态驱动!来看这个由口播音频驱动的视频片段,模特自然讲解产品,虽然口型还有点不贴合,但整体效果已经非常接近实拍。
模型对开发者非常友好,最低24G显存就能跑,不过官方推荐显存80GB,这样可以兼顾速度和生成质量,特别适用于高分辨率视频生成任务。
开源主页:https://hunyuancustom.github.io/
HunyuanCustom 是一个多模态视频生成模型,核心目标是保持生成视频中“人物身份”的一致性,并支持根据文本、图片、音频、视频等多种条件进行控制。
首先,模型引入了一个基于 LLaVA 的图文融合模块,用来增强图像与文本之间的理解。文本描述中会包含 "the man looks like the image..." ,系统会将“image token”替换为用户上传的图片,从而将人物特征更准确地融入文本语义中,帮助生成更具身份一致性的视频内容。
其次,HunyuanCustom 还设计了一个图像身份增强模块。该模块会将输入图像沿时间轴拼接,并借助视频模型对时间序列的强大建模能力,在整个视频中维持主体特征的一致性,也就是说,无论视频播放到哪一帧,主角的样貌都能保持稳定、不“变脸”。
在支持音频和视频作为输入条件方面,HunyuanCustom 针对不同模态分别设计了专属的注入机制。这些机制与身份保持模块是解耦的,也就是说,即使在输入中加入音频或视频,也不会干扰主体的身份一致性。
最终,HunyuanCustom 实现了对图像、音频和视频条件的解耦式控制,在以主体为中心的多模态视频生成任务中展现出极大的潜力。
来源:51CTO一点号