广州紫为云申请文字驱动的唇音同步数字人生成专利,基于文本驱动生成数字人视频消除时间延迟提高效率

360影视 2025-01-22 15:02 3

摘要:国家知识产权局信息显示,广州紫为云科技有限公司申请一项名为“文字驱动的唇音同步数字人生成方法、装置、设备及介质”的专利,公开号CN 119274534 A,申请日期为2024年9月。

金融界2025年1月22日消息,国家知识产权局信息显示,广州紫为云科技有限公司申请一项名为“文字驱动的唇音同步数字人生成方法、装置、设备及介质”的专利,公开号CN 119274534 A,申请日期为2024年9月。

专利摘要显示,本申请涉及一种文字驱动的唇音同步数字人生成方法、装置、设备及介质,包括:获取输入文本和单一对象视频,对输入文本进行预处理得到音素序列和语义特征;对单一对象视频进行预处理得到循环播视频段落、遮罩脸部图像和参考脸部图像;基于音素序列和语义特征生成语音特征;基于语音特征生成音频序列;根据遮罩脸部图像、参考脸部图像和语音特征获取脸部变形参数并对参考脸部图像进行变形,生成目标脸部图像;将目标脸部图像嵌入视频段落的视频帧中生成视频序列并与音频序列拼合得到目标数字人视频。基于文本驱动生成数字人视频能够即时生成与文本匹配的语音和唇形视频,消除了等待文字换成语音处理的时间延迟,极大地提高了数字人视频制作的效率。

天眼查资料显示,广州紫为云科技有限公司,成立于2017年,位于广州市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本1000万人民币。通过天眼查大数据分析,广州紫为云科技有限公司共对外投资了8家企业,参与招投标项目9次,知识产权方面有商标信息79条,专利信息84条,此外企业还拥有行政许可13个。

来源:金融界

相关推荐