摘要:2024年9月,奇富借条(原360借条)母公司奇富科技荣耀受邀,远赴希腊参加国际语音通信与信号处理顶级会议——INTERSPEECH 2024。会上,奇富科技发表了以“Qifusion-Net: Layer-adapted Stream/Non-stream
2024年9月,奇富借条(原360借条)母公司奇富科技荣耀受邀,远赴希腊参加国际语音通信与信号处理顶级会议——INTERSPEECH 2024。会上,奇富科技发表了以“Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition”为题的演讲,深入阐述了公司在语音识别技术方面的最新突破,这一成就不仅彰显了奇富科技的行业领先地位,更为中国语音技术在国际舞台上争得一席之地,树立了崭新的行业标杆。
INTERSPEECH作为全球语音科学界最负盛名的年度会议之一,汇聚了来自世界各地的顶尖学者、研究人员及行业领袖,共同探讨语音技术的最新进展、挑战与未来趋势。这一平台不仅代表了语音技术领域的最高学术水平,也是新技术、新理念交流与碰撞的绝佳场所,其权威性和影响力在业界无出其右。
奇富科技在INTERSPEECH 2024会议做主旨演讲
在演讲中,奇富科技介绍了可同时支持20多种方言的新一代奇富语音识别系统“QiFree”,这是国内金融行业内字错率最低的中文语音识别系统。在中文口音与方言语音识别领域的权威测试集KeSpeech的对比中,奇富科技凭借其在自动语音识别(Automatic Speech Recognition, ASR)领域的深厚积累,实现了方言口音分类准确率的显著提升,达到了79.10%,远超KeSpeech的基线水平61.13%,这一数据直观反映了奇富科技在语音识别准确性上的卓越表现。同时,在衡量识别错误率的关键指标——CER(Character Error Rate, 字符错误率)上,奇富科技更是以8.08%的成绩,远优于KeSpeech的10.38%,展现了其在中文方言识别领域的高效与精准。
奇富科技“QiFree”性能效果与KeSpeech Baseline对比
奇富科技自研的中文语音识别系统“QiFree”,打破了单一模型只能识别特定单一方言的困境,通过创新的层自适应融合结构,借助共享信息编码模块更高效的提取方言信息,实现了即说即译,进一步增强了语音机器人的实时交互能力。值得一提的是,“QiFree”不仅在普通话识别领域的CER上保持领先地位,更在冀-鲁、江淮、胶-辽、兰-银等多个方言区域的识别性能上,相比过往最佳成绩实现了超过15%的显著提升。这一突破性成果得到了INTERSPEECH三位独立审稿人的高度认可,他们一致认可奇富科技论文《Qifusion-Net:基于特征融合的流式/非流式端到端多口音语音识别框架》所展现的系统框架创新性与识别性能的卓越表现,并一致授予其“ACCEPT”的评定。
值得一提的是,在与国内一流公司(如某科技巨头及国内影响力最大的语音识别开源社区)的对比中,奇富科技同样展现出了压倒性的优势。即便是在面对参数规模更大、训练数据量更丰富的对手时,奇富科技依然能以更低的CER(8.08% vs 15.61% vs 26.55%)脱颖而出,证明了其技术架构的优越性和算法优化的高效性。此外,与全球领先的语音识别系统(如Openai-whisper v2)相比,尽管后者在通用语言识别上具有显著优势,但在中文方言识别这一细分领域,奇富科技依然保持了显著优势,这进一步印证了其在方言识别技术上的全球领先地位。
奇富科技“QiFree”关键指标与国内外一流科技公司对比
奇富借条(原360借条)母公司奇富科技于INTERSPEECH 2024的精彩亮相,既全面呈现了其在语音识别技术领域多年深耕的丰硕成果,也向世界有力证明了中国企业在该领域的雄厚实力与广阔前景。凭借出色的技术底蕴和不懈的创新追求,奇富科技正引领方言识别技术迈向新的发展高峰,为全球语音通信与信号处理技术的革新注入源源不断的中国智慧与力量。
*本文内容来自网络,不代表本刊观点,不构成购买或投资建议。
来源:中国战略新兴产业