英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件

摘要：英伟达近日推出了全新自动语音识别(ASR)开源模型Parakeet TDT 0.6B。该模型仅需1秒即可处理长达60分钟的音频文件，其处理速度是现有主流开源ASR模型的50倍。同时，在Hugging Face的Open ASR Leaderboard上，Par

【太平洋科技快讯】英伟达近日推出了全新自动语音识别(ASR)开源模型Parakeet TDT 0.6B。该模型仅需1秒即可处理长达60分钟的音频文件，其处理速度是现有主流开源ASR模型的50倍。同时，在Hugging Face的Open ASR Leaderboard上，Parakeet TDT 0.6B的字错率(WER)低至6.05%，在开源模型中表现优异，为实时转录、语音分析、呼叫中心智能化以及音频内容索引等企业级应用提供了强大支持。

Parakeet TDT 0.6B基于先进的Transformer架构，采用6亿参数的编码-解码结构，并利用高质量转录数据进行微调。此外，该模型还针对英伟达硬件进行了优化，通过量化和融合内核技术提升了推理效率，并支持TDT(Transducer Decoder Transformer)架构。

除了速度和精度，Parakeet TDT 0.6B还内置了多项独特功能。该模型还支持将歌曲内容转录为歌词，这一功能在音乐索引和媒体平台中具有广泛的应用前景。此外，该模型还支持数字和时间戳格式化，能够显著提升会议记录、法律转录和医疗记录的可读性。标点恢复功能的加入，则进一步增强了下游自然语言处理(NLP)应用的表现。

来源：太平洋电脑网一点号

标签：模型英伟达开源音频语音识别

本文地址：https://news.43u.com.cn/a/1478962.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!