摘要:在数字音频时代,音频信号可能会出现损坏或丢失的情况。例如,在音频传输过程中可能会因为网络问题导致数据丢失,或者在音频编辑过程中可能会意外删除某些片段。一些珍贵的历史音频资料也可能因为存储条件不佳而出现损坏。
在数字音频时代,音频信号可能会出现损坏或丢失的情况。例如,在音频传输过程中可能会因为网络问题导致数据丢失,或者在音频编辑过程中可能会意外删除某些片段。一些珍贵的历史音频资料也可能因为存储条件不佳而出现损坏。
传统的音频修复方法主要依赖于信号建模技术,例如,自回归模型、稀疏表示或线性预测编码。这些方法在处理较短的音频间隙时效果尚可,但在面对超过100毫秒的长间隙时,往往会因为无法捕捉长距离依赖关系或语义连贯性而表现不佳。
本古里安大学的研究人员提出了一种全新的音频修复方法,基于离散扩散模型的音频修复。
该方法的核心思想是将音频信号转换为离散token表示,然后在这些离散的token空间中应用扩散模型进行修复。这不仅能够有效捕捉音频的高级语义结构,还能避免直接建模原始波形或频谱图时面临的诸多问题。
前向噪声过程是离散扩散模型的第一个关键步骤,它的目的是将初始的音频信号逐步变得“模糊”或“嘈杂”,直到完全被噪声掩盖。这个过程可以通过一个逐步变化的系统来描述,其中每个步骤都会让音频信号变得更嘈杂一点。
假设我们有一个初始的音频信号,我们可以将其看作是一系列的“音频token”就像文字中的单词一样。前向噪声过程会逐步将这些音频token替换为“噪声token”,直到所有的音频token都被噪声token取代。这个过程就像是在一个清晰的画面上逐渐涂上颜料,直到画面完全被颜料覆盖。
在实际应用中,这个过程被设计成一个逐步吸收的过程,即所有的音频token最终都会被一种特殊的“掩码token”所取代。这种设计使得模型能够在后续的反向过程中逐步恢复原始的音频token。
反向去噪过程是离散扩散模型的第二个关键步骤,它的目标是从完全被噪声掩盖的音频信号中逐步恢复出原始的音频信号。这个过程就像是从一幅完全被颜料覆盖的画中逐步擦去颜料,恢复出原来的画面。
反向过程也是一个逐步进行的系统,它从完全被噪声掩盖的音频信号开始,逐步减少噪声,直到恢复出原始的音频信号。在这个过程中,模型需要预测每个位置上的音频token是什么。这个预测是基于周围上下文信息进行的,也就是说,模型会根据周围的音频token来猜测当前位置的音频token。
为了实现这个过程,模型会训练一个神经网络,这个神经网络的任务是学习如何从嘈杂的音频信号中恢复出清晰的音频信号。这个神经网络就像是一个“智能画师”,它能够根据周围的线索逐步恢复出原始的画面。
离散扩散模型的训练过程是为了让模型学会如何从嘈杂的音频信号中恢复出清晰的音频信号。这个过程就像是训练一个“智能画师”学会如何从一幅被颜料覆盖的画中恢复出原来的画面。
在训练过程中,模型会随机选择一个时间点,并在这个时间点上对音频信号添加噪声。然后,模型会尝试从这个噪声化的音频信号中恢复出原始的音频信号。通过不断地重复这个过程,模型逐渐学会了如何从噪声化的音频信号中恢复出清晰的音频信号。
这个训练过程的目标是最小化一个特定的损失函数,这个损失函数衡量了模型恢复的音频信号与原始音频信号之间的差异。通过最小化这个损失函数,模型能够逐渐优化自己的性能,从而更好地完成音频修复任务。
为了验证所提出方法的有效性,研究人员在 MusicNet 数据集上进行了广泛的实验。MusicNet 数据集包含了大量的古典音乐录音,这些录音被分为训练集和测试集。研究人员在测试集上引入了不同长度的音频间隙,从50毫秒到300毫秒,并使用所提出的方法对这些间隙进行了修复。
为了评估修复效果,研究人员采用了多种客观和感知指标,包括 Fréchet 音频距离、客观差异等级和对数谱距离。
实验结果表明,所提出的方法在所有间隙长度上都取得了优异的性能。在300毫秒的长间隙上,FAD 值仅为3.81,明显优于现有的扩散模型方法。例如 CQT-Diff+,其 FAD 值约为4.9。此外,所提出的方法在所有间隙长度上都取得了较高的 ODG 值和较低的 LSD 值,显示出良好的感知质量和频谱一致性。
来源:不秃头程序员