云平台一键部署【 VibeVoice】长对话式文本转语音模型

摘要：VibeVoice 是一个用于从文本生成富有表现力、长篇幅、多说话人对话音频（如播客）的新型框架。它解决了传统文本到语音（TTS）系统中的重大挑战，特别是在可扩展性、说话人一致性和自然话轮转换方面。

VibeVoice 是一个用于从文本生成富有表现力、长篇幅、多说话人对话音频（如播客）的新型框架。它解决了传统文本到语音（TTS）系统中的重大挑战，特别是在可扩展性、说话人一致性和自然话轮转换方面。

主要功能

多说话者支持能生成多达4位不同说话者的对话式音频，适用播客、有声读物等场景。长篇幅对话支持生成长达90分钟的连续语音，突破传统TTS系统在长度上的限制。富有表现力的语音根据文本内容生成带有情感和语调的语音，让对话更加自然和生动。跨语言支持支持多种语言的语音合成，能处理跨语言的对话场景。高保真音频生成的语音质量高，接近人类的自然语音，提供更好的用户体验。实时交互能实时生成语音，支持动态对话和交互式应用。

应用场景

播客制作有声读物虚拟助手教育和培训娱乐和游戏

GitHub:

【VibeVoice】模型已经在趋动云『社区项目』上线，无需自己创建环境、下载模型，一键即可快速部署，快来体验【VibeVoice】带来的精彩体验吧！

项目入口

启动开发环境

进入【VibeVoice】项目主页中，点击运行一下，将项目一键克隆至工作空间，『社区项目』推荐适用的算力规格，可以直接立即运行，省去个人下载数据、模型和计算算力的大量准备时间。