FunAudioLLM音频大模型，50种语言识别，情绪感知，基石智算平台新体验！

摘要：基石智算CoresHub平台近日在AI领域掀起了一股创新风潮，该平台将AI算力云与模型开发部署服务紧密结合，为开发者们提供了一个全方位、一站式的AI应用生态。这一创新之举，特别是对于初涉AI开发的用户来说，无疑是一个巨大的福音。CoresHub平台不仅支持多模

基石智算CoresHub平台近日在AI领域掀起了一股创新风潮，该平台将AI算力云与模型开发部署服务紧密结合，为开发者们提供了一个全方位、一站式的AI应用生态。这一创新之举，特别是对于初涉AI开发的用户来说，无疑是一个巨大的福音。CoresHub平台不仅支持多模态模型及应用的一键启动，还推出了包括文本处理、图文生成、视频生成以及语音转换在内的多种模型，使得用户能够轻松实现一键部署和在线微调，快速打造属于自己的AI应用。

在众多模型中，FunAudioLLM模型尤为引人注目。这款由阿里巴巴通义实验室推出的开源语音大模型，凭借其强大的功能，在语音识别与合成领域大放异彩。FunAudioLLM模型由SenseVoice和CosyVoice两大核心部分组成。SenseVoice在多语言语音识别、情感辨识以及声音事件检测方面表现出色，支持超过50种语言，尤其在中文和粤语的识别上，准确率有了显著提升。它还能精准识别音乐、掌声、笑声、哭声等多种声音和情绪。

而CosyVoice则以其卓越的语音合成能力著称，它可以根据少量原始音频快速生成模拟音色，包括韵律和情感细节，并且支持跨语言合成。这使得CosyVoice在语音到语音翻译、情感语音对话、互动播客和有声读物制作等多个应用场景中，都能发挥出色的作用。例如，在语音翻译场景中，CosyVoice不仅能将中文语音翻译成英文语音，还能保留原说话人的音色和情感色彩，为用户带来更加真实的听觉体验。

在CoresHub平台上，使用CosyVoice模型也非常简便。用户只需创建容器实例，选择推荐的资源配置和CosyVoice模型镜像，然后通过端口访问WebUI界面，即可根据页面操作提示，使用不同的功能生成音频。这些功能包括使用模型预训练的音色生成音频、上传自己的音频文件进行3秒极速复刻、跨语种复刻以及自然语言控制等。在使用自然语言控制功能时，用户需要选择CosyVoice-300-instruct模型并重新创建实例。