清华、智谱团队：6000亿合成交错语音文本预训练，性能提升近3倍

摘要：与基于文本的大语言模型（LLM）相比，语音语言模型（SpeechLM）接受语音输入并生成语音输出，能够实现更自然的人机交互。然而，传统的 SpeechLM 因缺乏无监督语音数据和并行语音-文本数据，很难像 LLM 一样进行大规模扩展。

与基于文本的大语言模型（LLM）相比，语音语言模型（SpeechLM）接受语音输入并生成语音输出，能够实现更自然的人机交互。然而，传统的 SpeechLM 因缺乏无监督语音数据和并行语音-文本数据，很难像 LLM 一样进行大规模扩展。为解决这一问题，来自清华大学和智谱的研究团队提出了一种新方法，利用从文本语料库中提取的大规模合成交错数据来扩展语音-文本预训练，从而消除了对并行语音-文本数据集的需求。这一方法从现有文本库中抽取文本片段，并使用 text-to-token 模型合成相应的语音片段，从而高效地构建语音-文本交错数据，而无需生成实际语音。此外，通过在编码器中加入向量量化的瓶颈层，他们还采用了从自动语音识别（ASR）模型中提取的监督语音 tokenizer。即使在较低的采样率（如 12.5Hz）下，这种有监督的训练方法也能生成语义保存较好的离散语音 token，同时保持语音重构质量。

论文链接：http://arxiv.org/abs/2411.17607研究团队表示，从预训练的语言模型开始，并将预训练扩展到 1 万亿个 token（其中包括 6000 亿合成交错语音文本数据），他们在语音语言建模和口语问题解答方面取得了 SOTA，将语音问答任务方面的性能从之前的 13%（Moshi）提高到 31%。

图｜随着合成交错数据量的增加，Spoken QA 的性能不断提高，大大超过了之前的 SOTA 模型 Moshi（左图）。合成交错语音文本数据的 pipeline（右图）。他们进一步证明，通过使用语音对话数据对预训练的模型进行微调，他们开发出的一种端到端语音聊天机器人，在对话能力和语音质量方面都达到了与现有基线相当的性能，展现了在纯语音领域中应用的巨大潜力。

研究方法

研究团队提出了一种通过从文本语料库合成高质量交错语音-文本数据来扩展语音-文本预训练的新方法，使得大规模预训练无需依赖大量的语音数据集成为可能。完整方法框框架结合了语音 token 化、语音-文本交替数据生成以及两阶段训练。

图｜研究方法概述。在语音 token 化的设计上，他们采用了一种基于自动语音识别（ASR）的监督语音 tokenizer，通过在编码器中加入向量量化的瓶颈层和平均池化层来有效生成离散语音 token。同时，为提高实时语音处理能力，tokenizer 还优化为支持流式推理从而降低在线应用中的延迟。

图｜语音重构结果。使用了词错误率（WER）评估语义保留情况，并使用 VisQOL 和 MOSNet 评估不同语音tokenizer 在不同采样率下的重建质量。语音-文本交错数据是 SpeechLM 预训练的关键。他们先是基于现有的文本到语音（TTS）数据集训练了一个 text-to-token 模型，能直接将文本片段转换为对应的语音 token，较传统多步生成方法效率更高且潜在错误的累积更少。接着，他们使用训练好的 text-to-token 模型从大规模文本语料库中采样文本片段，并将其转换为语音 token。这些语音 token 与原始文本片段交错组合，从而生成高质量语音-文本交错数据。最终，他们基于 FineWeb 语料库为模型预训练生成了 6000 亿 token 的语音-文本交错数据。

图｜文本到 token 模型的 WER。之后，他们开展了一个两阶段训练，在第一阶段，使用合成语音-文本交错数据对模型进行预训练，在第二阶段，使用语音对话数据集微调预训练模型。在语音-文本预训练阶段，他们通过使用不同用途的 4 类数据：语音-文本交错数据、无监督文本数据、无监督语音数据和有监督语音-文本数据进行预训练，使模型学习语音和文本之间的对齐关系。到了监督微调阶段，他们利用语音对话数据进行微调，使模型能够支持端到端语音输入与输出。

实验结果

研究团队通过一系列实验验证了提出方法的有效性，包括语音语言建模、语音问答、语音聊天机器人等任务，展现了在多个语音应用场景中的突破性进展。他们在语音语言建模任务中首次测试了大规模合成语音-文本交错数据的效果。结果表明，由他们的方法预训练的模型在所用任务上均优于现有方法。模型不仅能更精准地预测语音序列，还表现出更强的泛化能力，能够适应多样化的语音输入模式。

图｜模型预训练结果。在语音问答任务中，他们评估了模型处理自然语音问答的能力，特别是其在跨模态输入输出场景中的表现。相比之前 SOTA 模型 Moshi 的 13% 准确率，新模型将问答任务的准确率大幅提升至 31%，实现了近 3 倍的性能增长。他们进一步微调预训练模型，开发出一个完全基于语音的端到端语音聊天机器人。评估结果显示，具有文本引导的 9B 模型在一般问答和基于知识的任务中优于所有基线模型，在语音质量评估方面也比其他模型取得了更好的结果。值得注意的是，即使没有文本引导，9B 模型仍然与文本引导的基线模型表现相当，突出了该方法在文本和语音模态对齐方面的有效性。

图｜端到端语音聊天机器人的评估结果。此外，研究团队进一步开展了消融实验探究数据规模与组成、tokenizer 采样率和跨模态数据生成方法对模型性能的影响，为优化语音-文本预训练提供了实证依据。首先，数据规模与组成部分的实验结果显示，移除交错数据时模型性能显著下降，表明这种数据在对齐语音和文本模态中发挥了核心作用。进一步增加交错数据的规模（从 1000 亿扩展至 6000 亿 token）后，语音问答和语音语言建模的表现均有明显提升，特别是在语音到文本（S→T）和语音到语音（S→S）模式下，任务性能显著优化。此外，尽管未标注语音数据的移除对小模型影响不大，但在大规模模型（9B 参数）中，保留所有数据类型能够大幅提升整体性能。

图｜关于交错数据尺度和预训练数据组成的消融研究。之后，他们评估了 tokenizer 的采样率对模型表现的影响。研究发现，较低采样率（如 12.5Hz）在平衡语义保留与计算效率方面表现最佳，这为模型在实际应用中的优化提供了有力支持。最后，跨度损坏率（即交错样本中文本和语音 token 的比例）对模型性能有显著影响。当损坏比率接近 0 或 1 时，交错样本主要由文本或语音 token 主导，导致性能下降。实验通过调整不同的损坏比率训练了多个 1.5B 模型，得出 0.2 到 0.4 之间的跨度损坏率效果最佳，进而选取了 0.3 作为最佳的跨度损坏率用于主要模型的训练。