摘要:继去年被计算机图形学国际顶级年会接收论文成果、论文入选国际顶级学术期刊之后,中央音乐学院音乐人工智能与音乐信息科技专业三位硕博学生在导师带领下,在音频辅助捕捉弦乐演奏的精细动作方面又取得新的研究成果,此成果将推动智能化音乐表演、虚拟音乐会等领域的发展。
整体效果展示
文 | 徐丽梅
继去年被计算机图形学国际顶级年会接收论文成果、论文入选国际顶级学术期刊之后,中央音乐学院音乐人工智能与音乐信息科技专业三位硕博学生在导师带领下,在音频辅助捕捉弦乐演奏的精细动作方面又取得新的研究成果,此成果将推动智能化音乐表演、虚拟音乐会等领域的发展。
大提琴演奏手部特写效果展示
小提琴演奏手部特写效果展示
SIGGRAP(ACM Special Interest Group on Computer Graphics)是美国计算机协会组织的计算机图形学顶级年度会议,是中国计算机学会推荐国际学术会议A类会议,代表了计算机图形学的最高水平,素有计算机图形图像研究领域“奥斯卡”之称。SIGGRAPH每年都聚集了大量来自世界各地的学术界、工业界和艺术界的顶级专家,提供了一个展示最新研究成果、探讨前沿技术和建立合作关系的绝佳平台,每年有上万名相关领域从业者和上百家企业参加。
去年,中央音乐学院音乐人工智能与音乐信息科技专业博士生金奕同、丘治平,硕士生石义(导师均为俞峰、戴琼海)的论文《音频同样重要!利用音频信号增强无标记动作捕捉技术以实现弦乐演奏动作捕捉》(Audio Matters Too! Enhancing Markerless Motion Capture with Audio Signals for String Performance Capture)被SIGGRAPH接收。
论文首页
该论文得到了审稿委员会的一致认可,被接收为SIGGRAPH的“期刊专栏”(Journal Track)文章,将发表在ACM Transactions on Graphics期刊。该期刊属中国科学院SCI期刊分区1区期刊、JCR分区Q1期刊、中国计算机学会推荐国际学术期刊A类期刊,是计算机图形领域国际顶级期刊。
这一成果再一次表明,央音音乐人工智能系在系主任李小兵的带领下,研究成果达到了国际领先水平。这是央音计算机图形学研究成果首次入选国际顶流会议与国际顶流学术期刊。
金奕同介绍,乐器演奏是人类精细动作与乐器复杂交互的综合呈现,精细化地捕捉演奏动作及乐器交互对AIGC动作生成、演奏教学和动作分析等具有重要意义。相较于钢琴等固定按键乐器,弦乐演奏具有更大的自由度和更复杂的遮挡关系,手指的细微偏移将导致音乐的巨大差异,这使得弦乐演奏的精细动作捕捉更具挑战性。而现有动作捕捉技术对于捕捉乐器演奏的精妙动作仍存在巨大提升空间。
光学动捕+惯性手套 演奏捕方案:对演奏者干扰严重
现有的演奏动作数据: 缺失手指部细粒度动作
首先,现有的乐器演奏相关数据集在规模、视角个数、标注粒度等方面存在显著缺陷,金奕同的团队在导师的指导下,建立了弦乐表演数据集(SPD,第一个用于乐器演奏的、多模态、大规模并涵盖了手部动作细节的数据集),其涵盖大提琴和小提琴的演奏数据,共计120个片段,各片段包含演奏音频和多达23个不同视角的视频,总时长超过3小时。
弦乐表演数据集(SPD):该数据集采用音频引导的多模态框架,提高了弦乐表演无标记动作捕捉的准确度
之后,为获取精准的细粒度3D关键点标注(包含躯干、双手、乐器和琴弓),项目组提出了音频引导的无标记多模态运动捕捉框架,其结合从音频信号中推断出的手指-琴弦接触位置,以辅助手部精细动作的捕捉,所获得的动作捕捉结果优于目前最先进的基于纯视觉模态的算法。
框架流程:基于多视角视频得到初步捕捉结果,同时基于音频提取音高信息并结合音高-指法模型得到理论触弦位置,最终以理论触弦位置作为约束,通过逆向动力学方法获得进一步优化多视角视频的动作捕捉结果
该项目在保证“无标记”这一重要前提下,通过引入音频信号实现了手指与琴弦复杂交互的精确分析与建模,并最终结合视频信号实现了全身演奏动作的精细化捕捉,在复杂手部动作和手指-琴弦接触的捕捉方面实现了突破。
此外,该项目证实了通过音频辅助视觉动作捕捉的可行性和有效性,该范式可扩展至更广泛的涉及音频-动作关联性的场景中,有助于动作捕捉任务在一定程度上突破视觉信息中由于遮挡或接触所带来的限制。
大提琴演奏整体特写效果展示
小提琴演奏整体效果展示
小提琴演奏手部特写效果对比,该方法在还原手部姿态细节及发音手指与琴弦的交互方面效果突出
“在历时18个月的攻关过程中,面临的最大核心挑战在于前期必要的大量调研过程,以及在数据采集阶段的设备突发问题。”金奕同分析,该项目融合了信息科技与音乐艺术,要求研究者在这两个领域都具备深厚的专业素养,前期需要大量调研。一方面,研究者必须从快速发展的人工智能算法中筛选出最适合的相关理论,借此构建适用于弦乐演奏场景的动作捕捉技术路径;另一方面,需要与一线艺术家深入合作,全面了解演奏过程中关键动作要素,并探索如何在保证精度的同时保持艺术性。在数据录制过程中,由于捕捉系统的复杂性,以及设备、网络等突发问题的频繁发生,研究团队还需不断调整和优化采集参数。尽管演奏者已做好准备,但在现场依然会面临各种不可预见的突发情况,这些问题无法通过理论学习来预见或解决。因此,研究团队在正式录制前投入大量时间学习操作复杂的捕捉系统,力求在实际录制时尽可能避免各种突发情况的干扰。
此项目的研究团队与中央音乐学院副教授王崇武主课班开展深度协作,基于专业演奏家的运动姿态特征解构与艺术表现力评估,实现技术理性与艺术感性在数据层面的有机结合。王崇武团队不仅贡献了大量宝贵的专业级演奏数据,更通过持续的双向知识迁移,协助研究团队突破艺术认知与技术实现间的专业壁垒。
完整成果展示
目前,该项目团队基于既有研究成果中的多模态数据集,开展音乐驱动演奏动作的跨模态生成研究。该模型预期实现:输入任意弦乐演奏音乐音频信号后,可生成与音频同步的演奏动作数据,该数据可以驱动虚拟演奏者的高保真演奏动作还原,此项研究将推动智能化音乐表演、虚拟音乐会等领域的发展。
来源:音乐周报