AI虚拟人像新玩法！首款具有身体动作 AI 口型同步：EchoMimic V2

摘要：这一免费开源的工具不仅能让虚拟形象开口说话，做到口型同步，还能在音频驱动下添加头部和身体动作，将数字形象的表现力提升到一个全新的高度。

AI 领域再添重磅工具：EchoMimic V2！

这一免费开源的工具不仅能让虚拟形象开口说话，做到口型同步，还能在音频驱动下添加头部和身体动作，将数字形象的表现力提升到一个全新的高度。

如果你对 AI 数字人、AI配音、AI动画等制作有兴趣，那么 EchoMimic V2 绝对是一个不容错过的工具！

EchoMimic V2 是阿里达摩院开源的一款基于音频驱动的肖像动画生成工具。

一个开源人体动画生成模型，支持通过音频驱动半身人物生成逼真的动画效果。

具有引人注目的动作表现力、简化的生成流程和半身人物动画特点，可实现音频驱动的人物说话、表情和肢体动作的协调一致。

V1模型做的是：数字脸项目，到V2就支持生成引人注目的半身人物视频。

它利用一种新颖的音频姿势动态协调策略，包括姿势采样和音频扩散，来增强半身细节、面部和手势表现力，同时减少条件冗余。

可用于数字人直播、虚拟主播、视频编辑、AI配音等项目。

1、数字人全方位进化

相比 V1 仅支持数字人，V2 将动画范围扩展到自定义人物，提供从头部到身体的完整动画表现：

表情与嘴型同步：输入一段音频，即可让虚拟角色匹配语音内容精准“开口说话”。头部与手势动作：通过参考手势视频生成连贯自然的动作效果，打造更具沉浸感的数字人。

2、简单易用

只需提供以下三项内容，即可轻松生成高质量动画：

参考图像：用户上传任意照片作为虚拟角色的基础。音频剪辑：用于驱动嘴型和表情动画。手势视频：为动画添加丰富的身体动作与动态细节。

这样即可生成带有完整动作和表情的数字人物视频。无论是人脸还是手势，动画效果都非常流畅、自然，适合应用于电影、游戏、虚拟直播等多种场景。

有硬件条件并且动手能力强的小伙伴可以自行部署在本地电脑上尝试。

英伟达显卡，最好是16G左右的，小点的也可以，性能要差些。

python 版本大于3.10及以上

部署过程总的也偏复杂，需要下载项目包、安装Python依赖、安装ffmpeg-static、下载预训练权重模型、下载数据集、运行项目进行推理等步骤。

具体操作方式，可参考项目Readme说明。

最终运行 python app.py GradioUI 界面，即可开始使用。

• 上传参考图像（可以是你自己的头像或任何人物照片）。• 提供音频剪辑，EchoMimic V2 会根据音频制作出相应的口型同步动画。• 上传手势视频，系统会生成与音频相匹配的身体动作。• 输出完整的动画视频，准备好用在你的视频项目、游戏开发或虚拟互动中。

至于在线Demo虽然官方没有提供，但是有热心网友也搭建好了的，可以在线使用。（地址放文末了）

EchoMimic V2 打破了传统动画制作的局限，让 AI 与创作更加紧密地结合在一起。

不仅实现了高精度的嘴型同步，更将身体动作融入到动画中，极大丰富了虚拟角色的表现力。

无论你是短视频创作者、教育内容开发者，还是影视行业的创新探索者，EchoMimic V2 都可成为你的理想选择。

GitHub 仓库：https://github.com/antgroup/echomimic_v2

在线Demo：https://huggingface.co/spaces/fffiloni/echomimic-v2

本文，完。觉得本篇文章不错的，记得随手点个赞、收藏和转发三连，感谢感谢~如果想第一时间收到推送，请记得关注我们⭐~

来源：AIGC研究社一点号

标签：同步 v2 口型

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!