“高斯泼溅Audio驱动,实时高保真3D说话人头像合成”

摘要:我们提出了一种新的框架GaussianTalker,用于实时生成姿势可控的说话者的头部。它利用了3D高斯泼溅( 3DGS )的快速渲染能力,同时完成了直接用语音音频控制3DGS的挑战。GaussianTalker构造了头部的3DGS表示,并将其与音频同步渲染。

【GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting】

文章链接:http://arxiv.org/abs/2404.16012

项目主页: https://ku-cvlab.github.io/GaussianTalker

我们提出了一种新的框架GaussianTalker,用于实时生成姿势可控的说话者的头部。它利用了3D高斯泼溅( 3DGS )的快速渲染能力,同时完成了直接用语音音频控制3DGS的挑战。GaussianTalker构造了头部的3DGS表示,并将其与音频同步渲染。一个关键的思路是将3D高斯属性编码为共享的隐式特征表示,并将其与音频特征融合,以操纵每个高斯属性。这种设计利用了空间感知特性,并加强了相邻点之间的交互。然后将特征嵌入送入空间-音频注意力模块,该模块为每个高斯的属性预测逐帧偏移。它比以前的级联或乘法方法更稳定,可以处理大量的高斯函数及其复杂的参数。实验结果表明,与之前的方法相比,GaussianTalker在人脸保真度、唇动同步精度和渲染速度方面具有一定的优越性。具体来说,GaussianTalker取得了高达120FPS的渲染速度,超过了之前的基准程序。

【小六的机器人AI圈】知识星球 加入有惊喜 已沉淀6年,星球内部资料包括秘制视频课程、独家大咖采访及经验、项目对接、星主独家思考、同城线下交流会、求职招聘&笔面试题、学习打卡挑战、小组学习、最新前沿论文分享等等...

「小六的机器人AI圈」为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、创业、行业内幕、咨询、答疑等一系列的服务。快人一步,步步领先!

联系客服领优惠卷立减 50元加入!送上千页独家答疑电子书!加入3天内不满意无条件退款。付款后务必联系客服领取权益~

三维空间扫描仪化身机器人感知定位利器!用于机器人自主定位导航、实景三维重建!扫描仪+机器人,实时定位建图超简单!隧道低纹理大摆锤,暴力SLAM!暴力升级!暗黑隧道极限测试SLAM!效果哇塞!3D高斯泼溅来实景重建公园!全面启动!全国线下试用报名!MetaCam EDU 产品功能及细节详细介绍MetaCam EDU 实机展示和操作基于MetaCam EDU的二次开发流程及说明SLAM挑战:上下天桥绕一圈、定位建图准确完美回环无漂移SLAM挑战:多楼层、720°旋转楼梯、狭窄玻璃白墙过道三维空间扫描仪,轻松重建小树林空间定位建图挑战:长走廊、白墙、玻璃、反光等,会成功吗三维空间扫描仪,轻松重建小树林如何高效率重建古建筑?SLAM挑战:有光无光切换,自由穿梭小黑屋!SLAM暴力测试:弱光暗光、长走廊、动态场景、天旋地转如何快速让机器人具备SLAM能力?扫描仪+转换底座应用介绍3天爆改机器狗!

来源:计算机视觉life

相关推荐