“高斯泼溅Audio驱动，实时高保真3D说话人头像合成”

摘要：我们提出了一种新的框架GaussianTalker，用于实时生成姿势可控的说话者的头部。它利用了3D高斯泼溅( 3DGS )的快速渲染能力，同时完成了直接用语音音频控制3DGS的挑战。GaussianTalker构造了头部的3DGS表示，并将其与音频同步渲染。

【GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting】

文章链接：http://arxiv.org/abs/2404.16012

项目主页: https://ku-cvlab.github.io/GaussianTalker

我们提出了一种新的框架GaussianTalker，用于实时生成姿势可控的说话者的头部。它利用了3D高斯泼溅( 3DGS )的快速渲染能力，同时完成了直接用语音音频控制3DGS的挑战。GaussianTalker构造了头部的3DGS表示，并将其与音频同步渲染。一个关键的思路是将3D高斯属性编码为共享的隐式特征表示，并将其与音频特征融合，以操纵每个高斯属性。这种设计利用了空间感知特性，并加强了相邻点之间的交互。然后将特征嵌入送入空间-音频注意力模块，该模块为每个高斯的属性预测逐帧偏移。它比以前的级联或乘法方法更稳定，可以处理大量的高斯函数及其复杂的参数。实验结果表明，与之前的方法相比，GaussianTalker在人脸保真度、唇动同步精度和渲染速度方面具有一定的优越性。具体来说，GaussianTalker取得了高达120FPS的渲染速度，超过了之前的基准程序。

【小六的机器人AI圈】知识星球加入有惊喜已沉淀6年，星球内部资料包括秘制视频课程、独家大咖采访及经验、项目对接、星主独家思考、同城线下交流会、求职招聘&笔面试题、学习打卡挑战、小组学习、最新前沿论文分享等等...

「小六的机器人AI圈」为机器人AI行业从业者提供从入门、学习、交流、求职、线下链接、合作、创业、行业内幕、咨询、答疑等一系列的服务。快人一步，步步领先！

联系客服领优惠卷立减 50元加入！送上千页独家答疑电子书！加入3天内不满意无条件退款。付款后务必联系客服领取权益~

三维空间扫描仪化身机器人感知定位利器！用于机器人自主定位导航、实景三维重建！扫描仪+机器人，实时定位建图超简单！隧道低纹理大摆锤，暴力SLAM！暴力升级！暗黑隧道极限测试SLAM！效果哇塞！3D高斯泼溅来实景重建公园！全面启动！全国线下试用报名！MetaCam EDU 产品功能及细节详细介绍MetaCam EDU 实机展示和操作基于MetaCam EDU的二次开发流程及说明SLAM挑战：上下天桥绕一圈、定位建图准确完美回环无漂移SLAM挑战：多楼层、720°旋转楼梯、狭窄玻璃白墙过道三维空间扫描仪，轻松重建小树林空间定位建图挑战：长走廊、白墙、玻璃、反光等，会成功吗三维空间扫描仪，轻松重建小树林如何高效率重建古建筑？SLAM挑战：有光无光切换，自由穿梭小黑屋！SLAM暴力测试：弱光暗光、长走廊、动态场景、天旋地转如何快速让机器人具备SLAM能力？扫描仪+转换底座应用介绍3天爆改机器狗！

来源：计算机视觉life

标签： audio 高斯高斯泼溅

本文地址：https://news.43u.com.cn/a/153298.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!