FAMA:意大利和英语的首个大规模开源语音基础模型

360影视 欧美动漫 2025-06-04 16:19 3

摘要:在如今的人工智能浪潮中,各种强大的语音处理系统层出不穷,但它们往往藏在神秘的黑盒子里,让人无法一窥其训练过程和数据来源。2025年5月,意大利布鲁诺·凯斯勒基金会(Fondazione Bruno Kessler, FBK)的研究团队打破了这一局面,发布了一项

在如今的人工智能浪潮中,各种强大的语音处理系统层出不穷,但它们往往藏在神秘的黑盒子里,让人无法一窥其训练过程和数据来源。2025年5月,意大利布鲁诺·凯斯勒基金会(Fondazione Bruno Kessler, FBK)的研究团队打破了这一局面,发布了一项突破性的研究成果——FAMA,这是首个完全遵循开放科学原则的英语和意大利语语音基础模型。

论文《FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian》由Sara Papi、Marco Gaido(两位为共同第一作者)、Luisa Bentivogli、Alessio Brutti、Mauro Cettolo、Roberto Gretter、Marco Matassoni、Mohamed Nabih和Matteo Negri共同完成,发表于2025年5月28日的arXiv预印本平台(arXiv:2505.22759v1)。对于想深入了解的读者,团队已将所有资源开放获取:FAMA-medium(878M参数)和FAMA-small(479M参数)模型、FAMA数据集以及完整训练代码都已上线。

近年来,语音技术领域取得了显著进步,特别是在自动语音识别(ASR)和语音翻译(ST)方面。像OpenAI的Whisper和Meta的SeamlessM4T这样的语音基础模型(SFMs)表现出色,但它们都有一个共同的问题:不透明性。这些模型的训练代码和数据集不对外开放,这不仅阻碍了研究的可重复性,还引发了潜在的数据污染问题,使公平评估变得困难。

想象一下,这就像是一位大厨做了一道美味佳肴,却不告诉你食谱和原料来源。你可以品尝这道菜,甚至可以把它带回家,但永远不知道它是如何做出来的,也无法确认原料是否安全可靠。而FAMA团队则决定公开他们的"完整食谱"——从"食材选择"(数据收集)到"烹饪步骤"(训练过程),再到"成品展示"(模型表现),每一步都透明可见。

在文本处理领域,已经有多个项目朝着开源和透明的方向迈进,比如OLMO项目已经证明了仅使用开源数据训练大型语言模型是可行的。然而,语音处理领域在这方面的进展相对滞后。虽然OWSM(Open Whisper-Style Models)等项目已经开始向这个方向努力,但它们仍然使用了一些不完全符合开源许可的数据。

FAMA项目迈出了更关键的一步:团队不仅开源了代码和模型,还确保所有使用的训练数据都完全符合开源许可要求。这就像是确保食谱中的每一种原料都有明确的来源和使用许可,让任何人都可以放心复制和改进这道菜肴。

这项突破性研究构建了两个主要模型:FAMA-medium(8.78亿参数)和FAMA-small(4.79亿参数),它们在超过15万小时的开源语音数据上进行训练,涵盖英语和意大利语。更令人印象深刻的是,研究团队还创建了一个新的数据集,包含超过1.6万小时经过清洗和自动标注的语音数据。

实验结果令人振奋:FAMA模型在性能上可与现有的语音基础模型相媲美,同时处理速度却快了8倍之多。最重要的是,从代码库到数据集再到模型本身,所有成果都在开源许可下公开发布,为语音技术研究推动了一种更负责任的模型创建方式。

一、FAMA框架:开放科学的全新尝试

当我们谈论开放科学时,我们指的是确保科学过程的每个阶段都保持透明和可访问性,就像是把实验室的门完全打开,让每个人都能看到实验的全过程。FAMA(源自拉丁语"fari",意为"说话")正是这种理念的完美体现,它是罗马神话中公众声音的化身。

FAMA框架的核心在于其训练和评估数据的选择。研究团队严格遵循开放科学的理念,只使用符合开源许可的数据进行模型训练和测试。想象一下,这就像是建造一座房子,每一块砖、每根梁都有明确的来源和使用权限,确保整个建筑在法律和道德上无可指摘。

团队使用的数据主要来自两个来源。首先是已经公开可用的开源数据集,包括CommonVoice v18、CoVoST2、FLEURS、LibriSpeech、MOSEL、MLS和VoxPopuli-ASR等。这些数据集就像是公共图书馆里的藏书,每个人都可以自由访问和使用。其中有些数据集提供了人工标注的"黄金标准"转录文本(标记为"G"),而其他则使用自动生成的标签(标记为"A")。

除了现有的数据集,研究团队还创建了新的伪标签数据。他们利用YouTube-Commons数据集中的语音内容,这些内容都是在CC-BY 4.0许可下发布的YouTube视频。想象一下,这就像是从一座巨大的、公开的音频图书馆中借阅素材,但确保每一本"书"都有明确的使用许可。

研究团队对这些音频进行了一系列处理:首先将视频转换为WAV文件(单声道,16kHz采样率),然后使用silero(一个轻量级的语音活动检测工具)清除音乐和非语音现象,并进行分段。最后,他们使用SHAS工具将音频分割成平均约16秒的片段,这个长度适合训练使用。这个过程就像是将原料清洗、切割成适合烹饪的大小,为后续的"烹饪过程"(模型训练)做好准备。

对于这些处理过的音频,团队使用Whisper large-v3模型创建了自动转录,最终得到了英语14,200小时和意大利语1,828小时的语音数据。加上表1中列出的数据,最终的ASR(自动语音识别)训练集包含英语128,152小时和意大利语24,211小时的语音数据,总计152,363小时,其中包括48,259小时的人工标注数据。

这些数据足够用于ASR任务,但对于ST(语音翻译)任务,只有CoVoST2和FLEURS包含英语和意大利语之间的翻译。为了解决这个问题,研究团队使用MADLAD-400 3B-MT模型自动翻译了所有语音数据的转录文本。这就像是请了一位专业翻译帮忙,将食谱翻译成不同的语言,使更多的人能够理解和使用它。

团队还根据源文本和目标文本长度的比例进行了过滤,去除了不符合预期比例的样本。最终的训练集包括自动翻译的语音数据和原始的CoVoST2和FLEURS数据集,英语到意大利语149,564小时,意大利语到英语24,211小时。

对于模型的验证和测试,团队使用了人工标注的基准数据集。ASR评估在CommonVoice、MLS和VoxPopuli上进行,其中CommonVoice也作为英语和意大利语的验证集。对于翻译,团队使用CoVoST2评估意大利语到英语的翻译,使用FLEURS开发集和测试集评估英语到意大利语的翻译。

二、模型架构:深度设计的精心考量

FAMA模型的架构设计就像是一座精心规划的建筑,每一个组件都经过深思熟虑,为特定目的服务。研究团队开发了两种规模的模型:small和medium,都采用了编码器-解码器架构,这就像是建筑中的两大核心区域,各司其职又协同工作。

具体来说,FAMA模型由Conformer编码器和Transformer解码器组成。如果把这个模型比作一个翻译公司,Conformer编码器就像是精通多种语言的听力专家,负责理解输入的语音;而Transformer解码器则像是表达能力极强的写作专家,负责将理解的内容转化为文字输出。

FAMA small模型有12层编码器和6层解码器,而FAMA medium则更为强大,拥有24层编码器和12层解码器。与Whisper和OWSM等模型不同,FAMA选择了使编码器深度是解码器的两倍,而不是两者层数相等。这一设计有两个重要原因:

首先,由于自回归模型(如FAMA)在生成输出时需要多次通过解码器,使用较浅的解码器可以加快每次通过的速度,从而提高整体推理速度。想象一下,如果翻译过程需要反复查阅和修改,那么简化这个查阅修改的步骤就能大大提高整体效率。

其次,由于很多方法通过利用编码器来集成语音基础模型和大型语言模型,较深的编码器有助于在这类集成中保留更多的处理能力。这就像是在两个专业团队合作时,确保语音理解团队有足够的专业性和深度,以便更好地与文本生成团队协作。

每一层都配备了16个注意力头,嵌入维度为1,024,前馈神经网络(FFN)维度为4,096。这些参数就像是建筑的规格,决定了结构的复杂性和承载能力。

Conformer编码器前面还有两个一维卷积层,步幅为2,核大小为5。这些卷积层就像是预处理步骤,帮助模型更好地捕捉语音信号中的模式。Conformer卷积模块的核大小为31,用于点卷积和深度卷积。这些细节就像是建筑中的特殊设计元素,虽然普通人可能不会注意,但它们对整体性能至关重要。

对于词汇表,研究团队使用SentencePiece unigram模型构建了一个大小为16,000的词汇表,基于英语和意大利语转录文本训练。还添加了两个额外的标记——和——用于指示目标文本是英语还是意大利语。这就像是在翻译公司中使用特定的标记来指示文档的目标语言,确保翻译流程的正确性。

输入音频通过提取80个梅尔滤波器组特征来表示,每10毫秒提取一次,窗口大小为25毫秒。这就像是将连续的声音信号转换成一系列离散的音乐音符,便于模型进行处理和理解。

三、训练与评估:精细调校的艺术

FAMA模型的训练过程就像是一门精细的艺术,需要耐心、技巧和精确的调整。研究团队使用了三种损失函数的组合来训练模型,这就像是厨师用不同的调味料调制一道复杂的菜肴,每种调味料都有其独特的作用。

首先,对解码器输出应用了标签平滑交叉熵损失(LCE),使用目标文本作为参考(ASR任务使用转录文本,ST任务使用翻译文本)。其次,在编码器的特定层输出上计算CTC损失(LCTCsrc),使用转录文本作为参考。对于small模型,这是第8层;对于medium模型,这是第16层。第三,在最终编码器输出上应用另一个CTC损失(LCTCtgt),用于预测目标文本。

最终的损失是上述损失的加权和:L = λ1LCE + λ2LCTCsrc + λ3LCTCtgt,其中λ1, λ2, λ3 = 5.0, 1.0, 2.0,且CE的标签平滑因子为0.1。这些权重就像是配方中各种成分的比例,需要精确调整才能获得最佳结果。

FAMA模型采用了两阶段训练方法。首先是ASR预训练阶段,模型仅在ASR数据上训练;然后是ASR+ST训练阶段,模型同时在ASR和ST数据上训练。两个训练阶段都持续了100万步,相当于对训练数据进行了约6个完整周期的学习。

对于ASR预训练,small模型采用了Noam学习率调度器,峰值为2e-3,预热步数为25,000。为了应对类似于OWSM研究中遇到的收敛问题,medium模型采用了分段预热的Noam调度器:学习率先线性增加到2e-5(25k步),然后再增加到2e-4(额外25k步),之后遵循标准的反平方根函数。

对于ASR+ST训练,团队以0.5的概率采样ASR目标,否则使用ST目标。训练设置与ASR预训练相同,只是学习率设为恒定值1e-4。对于medium模型,类似于第一阶段,学习率比small模型低一个数量级,即恒定值1e-5。

优化器使用AdamW,动量参数β1, β2 = 0.9, 0.98,权重衰减为0.001,dropout为0.1,裁剪归一化为10.0。在ASR预训练和ASR+ST训练期间,团队都应用了SpecAugment数据增强技术。这就像是在训练过程中故意引入一些"干扰",让模型学会在不完美条件下也能表现良好,提高其鲁棒性。

训练使用了16个NVIDIA A100 GPU(64GB RAM),每1,000步保存一次检查点,并平均最后25个检查点得到最终模型。这就像是在多个厨房同时烹饪,并在特定时间点记录食谱的状态,最后取多次尝试的平均效果作为最终成品。

推理过程在单个NVIDIA A100 GPU上进行,批大小为80,000个标记。团队使用波束搜索(beam size=5),未知惩罚为10,000,无重复n-gram大小为5。此外,团队还报告了使用联合CTC重评分的结果,利用编码器输出上的CTC,权重为0.2。这些参数就像是在最终呈现菜肴时的精细调整,确保结果既美观又美味。

训练和推理都使用FBK-fairseq中可用的无bug Conformer实现,该实现基于fairseq-S2T构建。ASR性能使用jiWER库评估词错误率(WER),文本使用Whisper normalizer进行规范化。ST性能使用COMET 2.2.4版本评估,采用默认的Unbabel/wmt22-comet-da模型。

四、灾难性遗忘与解决方案

在机器学习中,灾难性遗忘是一个众所周知的问题,就像是一个人学习了新知识后,反而忘记了之前掌握的技能。当系统在多种语言或任务上连续训练时,这种现象尤为明显,导致在原始领域或语言上的性能下降。

由于FAMA模型采用了两阶段训练方法(这是语音基础模型训练中常用的方法),研究团队特别关注了在ASR+ST训练期间可能出现的灾难性遗忘现象。

图1展示了FAMA small模型在验证集上的困惑度(perplexity,ppl)在训练的前10万/50万步中的变化趋势。研究团队测试了不同的学习率(lrS2)和采样概率(pASR)组合。较低的lrS2值(如1e-5)导致性能较差,因此未包含在结果中。由于计算资源有限,团队主要分析了两种采样概率情况:1) pASR=0.5,使系统在ASR和ST任务上平均训练;2) pASR=0.2,使系统更多地训练预训练阶段未见过的任务,即ST任务。

从图表中可以看出,lrS2=1e-3对于在学习新任务(ST)的同时保持良好的ASR性能似乎太高了。无论是在ST训练比重更大的情况(pASR=0.2)还是在ASR和ST训练均衡的情况(pASR=0.5),ASR困惑度都显著增加,上升了约0.25,这相当于两种语言上的WER下降了3-4个点——而且在训练后期也没有恢复。这就像是一个学生在学习新科目时,原有科目的成绩大幅下滑,而且即使继续学习也无法追回。

因此,为了避免在两阶段训练中一开始就出现灾难性遗忘,研究团队排除了lrS2=1e-3的选项,而是选择了1e-4作为两阶段训练的学习率。这就像是调整学习的节奏,不要一下子学太快,而是保持适当的速度,既能学习新知识,又不会忘记已掌握的技能。

关于ASR采样,团队观察了50万步(第二阶段训练的一半)期间的曲线行为,发现pASR=0.5的ASR困惑度曲线逐渐接近原始模型的困惑度值,而pASR=0.2的曲线虽然有所改善,但无法接近原始困惑度值。这与ST困惑度形成对比,pASR=0.2的曲线比pASR=0.5的曲线低约0.2,表现更好。然而,这种差异在ST性能上的反映并不明显,平均仅提高了0.005 COMET点。相反,WER的差异却很显著,平均下降了约0.8个点。

基于这些观察,研究团队得出结论:要在两阶段训练中避免灾难性遗忘,最好在第二阶段均衡采样ASR和ST任务。这就像是平衡学习不同科目的时间,确保新旧知识都能得到充分巩固。

五、与现有语音基础模型的比较

FAMA模型的性能如何?它能与现有的语音基础模型相媲美吗?表2展示了FAMA模型与前文提到的其他语音基础模型在ASR和ST任务上的性能比较。

对于FAMA模型,表格提供了ASR预训练后的模型(FAMA-ASR)和最终ASR+ST模型的分数,以及通过联合CTC重评分获得的结果。

从FAMA-ASR的结果来看,medium模型的表现优于small模型,平均WER改善了约0.8个点,无论是否使用联合CTC重评分。与Whisper medium相比,FAMA medium表现更好,在英语上WER低4.4点,在意大利语上低6.4点,而参数数量相似。FAMA medium与OWSM v3.1 medium相比也取得了显著改善,英语上WER低至1.1点,意大利语上低至7.3点,甚至与Whisper large-v3相比也能取得相似的WER分数。

然而,SeamlessM4T模型,它们利用了如wav2vec-BERT 2.0(在450万小时数据上训练)和NLLB(在超过430亿句子上训练)等大型预训练模型,仍然优于FAMA,尤其是v2-large在CommonVoice上的WER极低,即使与强大的竞争对手如Whisper large-v3相比也是如此。

看看最终FAMA模型的ASR结果,我们发现WER与ASR-only模型相比几乎没有变化,正如前面关于灾难性遗忘的讨论中所预期的那样。在ST结果方面,FAMA模型优于OWSM v3.1 medium,FAMA small的COMET提高了0.141,FAMA medium提高了0.152,但仍难以达到Whisper和SeamlessM4T的性能。

这些结果——在ASR方面与更大的非开放模型相比具有竞争力,但在ST方面表现较弱——表明构建高质量的开放科学语音基础模型是可行的,但也凸显了创建带有人工参考的开源兼容ST数据集的倡议的必要性,以缩小与非开放模型的差距。

六、计算时间:速度的显著优势

除了性能比较,研究团队还评估了各种语音基础模型在单个NVIDIA A40 40GB GPU上的吞吐量。吞吐量以xRTF(实时因子的倒数)衡量,计算为处理的音频秒数除以计算时间(秒)。测试集是CommonVoice,英语总时长26.9小时,意大利语总时长26.4小时。

对于每个模型,团队报告了可能的最大批大小,范围在2、4、8和16之间,因为更高的值会导致所有模型出现内存不足问题。结果见表3。

从结果可以看出,Whisper模型是最慢的,medium平均xRTF为12.1,large-v3为7.2,使它们比FAMA medium慢约3-6倍,比FAMA small慢约5-8倍。这些结果可归因于Whisper模型的架构设计,它们应用了×2的音频下采样,而不是通常使用的×4(如FAMA),并在较短的序列中引入了大量填充以达到固定的30秒长度。

Seamless模型虽然没有额外的填充(与FAMA一样)并且具有更大的音频下采样(×8),但仍然比Whisper模型快约2倍,但与FAMA medium相比仍然慢1.5-3倍,与FAMA small相比慢2-4倍,使FAMA模型家族成为速度最快的模型,优势明显。

这种速度优势在实际应用中尤为重要。想象一下,如果你需要处理大量的语音数据,FAMA的速度优势可以显著缩短处理时间,节省计算资源和成本。

七、结论与未来展望

在本研究中,研究团队解决了现有语音基础模型闭源性质带来的挑战,如训练数据和代码库的可访问性有限,通过引入FAMA,首个针对英语和意大利语的大规模开放科学语音基础模型。

FAMA模型在超过15万小时的纯开源语音数据上训练,确保了完全的透明度,所有成果都在开源兼容许可下发布。此外,团队还贡献了一个新的ASR和ST伪标签集合,包含约1.6万小时的语音数据,以及超过13万小时的英语和意大利语自动翻译。

结果表明,FAMA模型在ASR和ST方面都优于OWSM,并在ASR方面达到了与Whisper相当的结果,同时速度快了8倍。通过向社区提供完全可访问的资源,FAMA弥补了语音技术进步与开放科学原则之间的差距,实现了公平评估、更广泛的参与和包容性。

未来的工作将专注于将FAMA扩展到更多语言,最终目标是进一步扩大语音技术中的开放科学生态系统。这项研究得到了PNRR项目FAIR - Future AI Research (PE00000013)的资助,该项目由NextGenerationEU下的NRRP MUR计划资助,以及欧盟Horizon研究和创新计划的资助(协议号101135798,项目Meetween)。研究团队感谢CINECA提供高性能计算资源和支持。

通过FAMA项目,研究团队不仅提供了高性能的语音处理模型,还树立了开放科学在语音技术领域的新标杆。这种透明和开放的方法不仅促进了公平评估和比较,还鼓励更广泛的参与,最终引领语音技术向更具包容性和多样性的方向发展。

来源:至顶网一点号

相关推荐