图 | 语音到文本翻译和语音到语音翻译在添加了毒性考量的 28 种语言方向上的平均结果在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队通过 BLASER 2.0 等工具对 SeamlessM4T 进行检测和优化,SeamlessM4T 在处理性别变化时比之前版本表现出更强的鲁棒性,尤其是在 S2ST 任务中的性别变化鲁棒性显著提升。警惕潜在风险尽管 SeamlessM4T 已经可以翻译约 100 种语言,但仍然存在一些局限性。世界上约有 7000 种语言,该工具在许多人类易处理的场景中仍面临困难。而且,在实际应用中,SEAMLESSM4T 系统的 ASR 性能受用户性别、种族、口音和语言差异影响,导致识别和翻译不准确,限制了其在多元化人群中的应用。在处理俚语和专有名词时,该系统在不同资源程度语言中的翻译质量参差不齐;在实时交互场景中,由于语音交流对即时反馈要求高,用户难以评估输出质量,误译或毒性内容风险较高,且无法像书面交流那样修改。同时,语音的韵律和情感信息在当前系统输出中未得到充分体现,影响信息准确传达。研究人员表示,未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动。另一方面,低延迟语音翻译和流式翻译技术成为关键突破点,低延迟可减少翻译时间差,使交流更流畅。在评论文章中,康奈尔大学助理教授 Allison Koenecke 则从安全方面提出了担忧,“基于语音的技术越来越多地用于高风险任务,例如在医疗检查中做笔记或转录法律程序,像 Meta 团队开发的模型正在加速这一领域的进展。但是,这些模型的用户(例如医生和法庭官员)以及提供语音输入的个人,都应该意识到语音技术的易错性。”Koenecke 提到,鉴于现有模型的性能在不同语言之间差异很大,必须格外小心,以确保模型能够熟练翻译或转录某些语言中的特定术语。这方面的努力应与计算机视觉研究人员的工作同步进行,后者正在努力改善图像识别模型在代表性不足群体中的不佳表现,并防止模型做出冒犯性预测。此外,她还认为,未来有必要运用以设计为导向的思维,确保用户能够正确理解这些质量参差不齐的模型所提供的翻译。开发者还应该考虑如何告知模型的局限性。这可能包括在准确性存疑时完全放弃输出,或者为低质量的输出配上书面警告或视觉提示。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,如在医疗或法律环境中。参考链接:https://www.nature.com/articles/s41586-024-08359-zhttps://www.nature.com/articles/d41586-024-04095-6作者:田小婷如需转载或投稿,请直接在公众号内留言摘要:图 | 语音到文本翻译和语音到语音翻译在添加了毒性考量的 28 种语言方向上的平均结果在毒性检测方面,他们采用 ETOX、MuTox 和 Mintox 等工具,排除训练中的有害数据,减少模型产生有毒输出的概率,为用户提供健康的交流环境;在性别偏见方面,研究团队
来源:优苗科技
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!