摘要:2月6日,字节跳动数字人团队推出了新的多模态数字人方案OmniHuman,其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
2月6日,字节跳动数字人团队推出了新的多模态数字人方案OmniHuman,其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
业内人士表示,OmniHuman通过引入多模态条件驱动和全条件训练策略,成功解决了人类动画生成领域长期存在的数据扩展和泛化能力问题。这一发展出现在AI视频生成技术竞争日益激烈的背景下,谷歌、Meta和微软等公司也在积极追逐类似技术。
传统 AI 数字人模型多基于姿势驱动或音频驱动,OmniHuman 则可以基于单个人体图像和运动信号,如仅音频、仅视频或音频和视频的组合生成人体视频,极大地降低内容创作的门槛。个人用户、MCN 机构等都能利用它快速生成虚拟主播、虚拟偶像、虚拟客服、虚拟教育等各种形式的数字人内容,为商业化变现提供更多可能。
来源:金融界
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!