摘要:5月9日,腾讯混元正式推出并开源一款全新的多模态定制化视频生成工具——Hunyuan Custom,该工具基于混元视频生成大模型(Hunyuan Video)打造。
【太平洋科技快讯】5月9日,腾讯混元正式推出并开源一款全新的多模态定制化视频生成工具——Hunyuan Custom,该工具基于混元视频生成大模型(Hunyuan Video)打造。
Hunyuan Custom 的核心优势在于其强大的多模态融合能力。它能够同时处理文本、图像、音频、视频等多种输入形式,并将其转化为连贯、自然的视频内容。相比传统视频生成模型,Hunyuan Custom 在生成质量和控制力方面都有着显著提升。
此外,Hunyuan Custom 提供了多种视频生成模式,包括单主体视频生成、多主体视频生成、单主体视频配音以及视频局部编辑等。其中,单主体生成能力已经开源并在混元官网上线,用户可以在“模型广场-图生视频-参考生视频”中体验,其他能力也将于5月内陆续开源。
对于传统视频生成模型在人物一致性和场景变换方面的限制。Hunyuan Custom 在单主体生成模式下,用户只需上传一张目标人物或物体的图片,并提供一句文本描述,例如“他正在遛狗”,Hunyuan Custom 就能识别出图片中的身份信息,并在完全不同的动作、服饰与场景中生成连贯自然的视频内容。同时,该工具还能实现多主体视频的生成,让多个主体按要求出现在视频里。
Hunyuan Custom 具备强大的扩展能力。在音频驱动模式下,用户可以上传人物图像并配上音频语音,模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直播、虚拟客服、教育演示等场景。在视频驱动模式下,Hunyuan Custom 支持将图片中的人物或物体自然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。
来源:太平洋电脑网一点号