摘要:VibeVoice 是一个用于从文本生成富有表现力、长篇幅、多说话人对话音频(如播客)的新型框架。它解决了传统文本到语音(TTS)系统中的重大挑战,特别是在可扩展性、说话人一致性和自然话轮转换方面。
VibeVoice 是一个用于从文本生成富有表现力、长篇幅、多说话人对话音频(如播客)的新型框架。它解决了传统文本到语音(TTS)系统中的重大挑战,特别是在可扩展性、说话人一致性和自然话轮转换方面。
主要功能
多说话者支持能生成多达4位不同说话者的对话式音频,适用播客、有声读物等场景。长篇幅对话支持生成长达90分钟的连续语音,突破传统TTS系统在长度上的限制。富有表现力的语音根据文本内容生成带有情感和语调的语音,让对话更加自然和生动。跨语言支持支持多种语言的语音合成,能处理跨语言的对话场景。高保真音频生成的语音质量高,接近人类的自然语音,提供更好的用户体验。实时交互能实时生成语音,支持动态对话和交互式应用。应用场景
播客制作有声读物虚拟助手教育和培训娱乐和游戏GitHub:
【VibeVoice】模型已经在趋动云『社区项目』上线,无需自己创建环境、下载模型,一键即可快速部署,快来体验 【VibeVoice】带来的精彩体验吧!
项目入口
启动开发环境
进入【VibeVoice】项目主页中,点击运行一下,将项目一键克隆至工作空间,『社区项目』推荐适用的算力规格,可以直接立即运行,省去个人下载数据、模型和计算算力的大量准备时间。
配置完成,点击进入开发环境,根据主页项目介绍进行部署。
使用方法
在gemini/code中找到使用说明,选中使用说明单元格,点击运行。
等待生成local URL,右侧添加端口7860。
示例展示
更多展示可在趋动云公众号查看
➫温馨提示: 完成项目后,记得及时关闭开发环境,以免继续产生费用!
趋动云新客专享活动(限时有效)做任务净得190元算力金,点击下方👇👇👇海报了解活动详情,完成任务的小伙伴添加下方小助手提供完成截图领取赠送算力金。
智汇全球,趋动未来
『社区项目』汇聚全球智慧,是促进技术交流的宝贵平台,期待每一位AI爱好者体验一键部署功能的强大魅力。
同时,我们也热切盼望每一位码友加入,分享您的精品作品,共筑这个充满活力与创新的技术乐园。
连接算力・连接人
来源:趋动云