对话式AI文本转语音合成软件CSM整合包,Sesame AI多人文字转语音

360影视 国产动漫 2025-06-05 16:59 2

摘要:CSM是发布不久的一款多人对话语音生成模型,声音自然延迟低,同时支持克隆音色语音合成,我基于当前最新版本制作了免安装一键启动整合包。

CSM是发布不久的一款多人对话语音生成模型,声音自然延迟低,同时支持克隆音色语音合成,我基于当前最新版本制作了免安装一键启动整合包。

CSM(Conversational Speech Model) 是由硅谷团队 Sesame AI Labs 开发的开源语音对话模型,主打高自然度、低延迟的语音交互。其核心目标是解决传统语音合成的“恐怖谷效应”(即语音接近真人但细微不自然引发不适感),通过情感表达和上下文感知生成接近人类对话的语音。

第一次启动会慢些,软件成功启动后会自动打开webui界面。

在Speaker A和Speaker B下拉列表中选择说话发音人。

或是点击【Or add your own voice prompt】展开,上传你自己的音频样本和【Speaker prompt】音频样本文本内容。软件将克隆你上传的音频音色用于语音合成。

【Conversation content】输入对话内容。

每人说一行,轮流交替往下说,第一行文本从Speaker A开始合成

点击下方的【Generate conversation】即可开始生成对话语音。

目前语音合成语言主要为英语

软件运行路径中不要出现非英文字符及空格,待使用文件也要注意

来源:大阳说书

相关推荐