开源播客TTS模型神器:Muyan-TTS,0.33秒生1秒音频,零样本语音合成

360影视 欧美动漫 2025-05-13 14:24 1

摘要:快速生成:约 0.33 秒生成 1 秒音频,适合批量生成长语音内容;说话人适配:支持自定义说话人,进行个性化语音定制;支持长内容连贯合成:无需打断,可自然连续地朗读 5 分钟甚至更长文本;离线部署友好:Hugging Face 提供模型权重,支持本地推理。

给大家介绍一款新发布的开源 TTS 模型:Muyan-TTS,专为播客场景设计的开源文本转语音(TTS)模型。

它以超低延迟(0.33秒生成1秒音频)实现零样本语音合成,预训练10万+小时播客数据,支持长篇内容的高连贯性生成。

是一个特别适合播客、有声书或长视频场景的高效 TTS 模型。

快速生成:约 0.33 秒生成 1 秒音频,适合批量生成长语音内容;说话人适配:支持自定义说话人,进行个性化语音定制;支持长内容连贯合成:无需打断,可自然连续地朗读 5 分钟甚至更长文本;离线部署友好:Hugging Face 提供模型权重,支持本地推理。

Muyan-TTS支持本地部署,需Python和GPU环境。以下是详细步骤:

依赖:需要本地安装 FFmpeg 工具。

① 克隆项目

git clone https://github.com/MYZY-AI/Muyan-TTS.gitcd Muyan-TTS

② 创建虚拟环境并编译项目

conda create -n muyan-tts python=3.10 -yconda activate muyan-ttsmake build

③ 下载模型

huggingface-cli download MYZY-AI/Muyan-TTS --local-dir ./models

然后运行 python tts.py 即可快速使用。

核心代码如下:

async def main(model_type, model_path): tts = Inference(model_type, model_path, enable_vllm_acc=False) wavs = await tts.generate( ref_wav_path="assets/Claire.wav", prompt_text="Although the campaign was not a complete success, it did provide Napoleon with valuable experience and prestige.", text="Welcome to the captivating world of podcasts, let's embark on this exciting journey together." ) output_path = "logs/tts.wav" with open(output_path, "wb") as f: f.write(next(wavs)) print(f"Speech generated in {output_path}")

需要指定提示语,包括 ref_wav_path 及其 prompt_text,以及要合成的 text。默认情况下,合成的语音保存到 logs/tts.wav。

当你将 model_type 指定为 base 时,可以更改提示语音,使其适用于任意说话人进行零样本TTS合成。

当你将 model_type 指定为 sft 时,需要保持提示语不变,因为sft模型是在Claire的声音上训练的。

同时还可以进行 API 方式的使用:

python api.py

使用 API 模式会自动启用 vLLM 加速,上述命令将在默认端口 8020 上启动服务。

同样,需要将 model_type 指定为 base 或 sft,默认值为 base。需要注意的是,model_path应与你指定的model_type一致。

API使用示例:

import timeimport requestsTTS_PORT=8020payload = { "ref_wav_path": "assets/Claire.wav", "prompt_text": "Although the campaign was not a complete success, it did provide Napoleon with valuable experience and prestige.", "text": "Welcome to the captivating world of podcasts, let's embark on this exciting journey together.", "temperature": 0.6, "speed": 1.0,}start = time.timeurl = f"http://localhost:{TTS_PORT}/get_tts"response = requests.post(url, json=payload)audio_file_path = "logs/tts.wav"with open(audio_file_path, "wb") as f: f.write(response.content) print(time.time - start)

Muyan-TTS 是一个新开源的、可训练的 TTS 模型,专为播客场景设计出来的。

虽然目前仅支持英文,但其零样本适配 + 快速合成 + 长文本能力也毋庸置疑。如果你正在做播客剪辑、有声书录制、AI 视频生成,Muyan-TTS 也会是你不可错过的开源新选择!

GitHub 开源地址:https://github.com/MYZY-AI/Muyan-TTS

HF 模型地址:https://huggingface.co/MYZY-AI/Muyan-TTS

更多免费AI功能 云片AI:https://y-p.cc/?f=tt

来源:AIGC研究社一点号

相关推荐