摘要:日前,计算机国际声学、语音与信号处理会议ICASSP 2025公布论文录用名单,由巨人网络AI实验室与浙江大学合作的语音研究成果入选ICASSP 2025。该成果提出了一种精准提升音频语言模型性能的创新方法,在实验结果中达到该领域最优效果。
松果财经讯,日前,计算机国际声学、语音与信号处理会议ICASSP 2025公布论文录用名单,由巨人网络AI实验室与浙江大学合作的语音研究成果入选ICASSP 2025。该成果提出了一种精准提升音频语言模型性能的创新方法,在实验结果中达到该领域最优效果。
国际声学、语音与信号处理会议 (International Conference on Acoustics, Speech and Signal Processing, 简称ICASSP) 是全世界最大、最全面的信号处理及其应用方面的顶级会议。作为国际电子技术与信息科学工程师协会 (Institute of Electrical and Electronics Engineers,简称IEEE) 的重要会议之一,在国际上享有盛誉并具有广泛的学术影响力。
音频语言模型(Audio-Language Models,ALMs)是结合音频处理与自然语言理解的前沿技术,旨在让机器更好地理解和生成与音频相关的内容,在智能音效生成、语音交互、语音翻译等领域具有广泛应用。例如,可以通过 ALMs 为短视频、游戏和电影生成契合内容的音效,大幅降低人工制作的时间与成本;在语音助手中,ALMs 可提升对复杂语音指令的理解能力,实现更自然的人机交互。
尽管预训练的 ALMs 在音效零样本泛化方面表现出色,但其性能很大程度上依赖于测试时使用的提示词(prompts)。手动设计这些prompts既费时又计算密集,而且现有的测试时适应方法在零样本分类中容易陷入错误的模型预测。
为此,巨人网络AI实验室与浙江大学研究团队在合作论文《Multiple Consistency-guided Test-Time Adaptation for Contrastive Audio-Language Models with Unlabeled Audio》中,提出了一种无需标注标签的多重引导提示学习方法,提升了音频分类零样本学习上的效果,为后续在视频配音(Video-to-Audio,V2A)任务上提供精准支持。
根据实验结果,与最先进的模型相比,该方法平均准确率相对提升了4.41%,在12个任务的跨领域测试中,平均准确率也相对提升了5.33%,无论是针对域内数据的效果还是跨域的稳定性,都达到了该领域的SOTA(State-of-the-Art,最优的)效果。
巨人网络AI实验室成立于2022年底,是专注在“游戏+AI”领域的人工智能实验室,致力于通过AI技术革新游戏生产、推动玩法创新。自2024年下半年以来,巨人网络AI实验室在AAAI、ECCV、ICASSP等全球顶级学术会议上相继发表了多篇重要论文,其在大模型方向的技术创新实力逐渐显现,跻身国际舞台。
来源:小萱说科技