摘要:财中社2月6日电浙商证券发表计算机行业点评报告称,字节跳动研究团队发布全新端到端多模态AI数字人模型OmniHuman,能够将单一照片转换为逼真的动态视频,展示人物讲话、歌唱及自然动作。
财中社2月6日电 浙商证券发表计算机行业点评报告称,字节跳动研究团队发布全新端到端多模态AI数字人模型OmniHuman,能够将单一照片转换为逼真的动态视频,展示人物讲话、歌唱及自然动作。
与此前AI数字人生成模型相比,OmniHuman主要具有以下两大特点:
1)输入多样性及视频驱动兼容性:传统AI数字人模型或为基于姿势驱动人类动画或为基于音频驱动面部表情,而OmniHuman可以基于单个人体图像和运动信号(例如,仅音频、仅视频或音频和视频的组合)生成人体视频,既支持音频驱动,也支持视频驱动,模仿特定视频中的动作,并且同时支持音频和视频结合驱动,控制特定的身体部位。此外,在输入多样性方面,OmniHuman支持卡通角色、人工物体、动物以及复杂的姿势,确保生成的动作特征与每种风格的独特特点相匹配。
2)解决以往端到端方法因高质量数据稀缺而表现不佳的问题:此前的AI数字人模型大多基于高度过滤的数据集训练,如音频条件模型通常会根据唇形同步精度进行进一步的数据清理、对姿势条件模型进行大量过滤裁剪清理,由于过滤过程种丢弃了大量数据,使得数据集扩展有效性降低,模型在有限场景中的适用性受到限制。OmniHuman模型采用渐进式、多阶段训练方法,根据不同条件对运动的影响程度进行分阶段训练从而充分利用大规模、多样化数据,从而提升生成效果,使视频更加自然、流畅。
从评测结果而言,通过与多个已存在的模型定量对比,OmniHuman算法在多项评估指标上展现出显著优势。
AI数字人有望成为大模型商业化变现的有效路径,多家互联网大厂已基于AI大模型进行了数字人布局,如腾讯打造腾讯智能、百度打造智能云曦灵平台、京东打造言犀、华为打造华为云盘古数字人大模型等,开源领域,支付宝开源了数字人项目EchoMimicV2,字节此前开源AI数字人模型MimicTalk,京东开源JayHallo数字人项目等,目前AI数字人已逐步在教育、直播、广告营销等领域实现商业化变现。
数字人有望成为AI大模型的服务入口,在帮助企业实现降本增效的同时,实现toB服务在toC侧的变现闭环。根据IDC预计,到2026年中国AI数字人市场规模将达到102.4亿元。
来源:财中社