摘要:最近,微软悄悄把开源的语音生成模型 VibeVoice 全都下架,只留下一个 1.5B 的小模型。
最近,微软悄悄把开源的语音生成模型 VibeVoice 全都下架,只留下一个 1.5B 的小模型。
VibeVoice 仅剩下 Readme 的仓库中,还留下了下面这几个 issue:
没有解释,没有公告。只留下一个问题:这个模型,到底是有多离谱?
我们提前留了一份,现在还可以在模力方舟上跑得起来。 如果你也好奇,就一起来听听看,VibeVoice 到底离谱在哪里。
VibeVoice-Large 体验链接:https://ai.gitee.com/serverless-api?model=VibeVoice-Large
VibeVoice 原本的定位是一个支持长文本、多说话人、情绪控制的语音生成模型,结构上用了:
采用 Qwen2.5(1.5B / 7B)作为核心语言理解模块,负责解析文本与说话人上下文
自研 7.5Hz 的超低帧率语音 tokenizer
Diffusion Head 做音频生成,理想上可以合成长达 90 分钟的多角色对话
听起来确实挺有想法,也有点野心。
实际效果到底如何?
我们在模力方舟保存了模型,并做了几组测试。用同一段对话,生成出了不同感觉:
原文: Speaker 1:大家好,欢迎收看《危殆的星球》。我是主持人爱丽丝。今天我们一起来讨论一份令人警醒的新报告,这份报告回顾了过去十年(从2015年到2025年)的气候变化情况。它所呈现的不仅是气温的持续上升,更揭示了一种危险的加速趋势。今天我们有幸邀请到专家小组来为我们解读这份报告。欢迎卡特、弗兰克和玛雅。 Speaker 2:你好,爱丽丝,很高兴来到这里。我是卡特。自带 BGM 型突然串台型(28 秒后)
感觉有点喝多了型(30 秒开始)
外星人对话型
说实话,有些场景下效果确实勉强还能听,但有些只能说不听后悔,听了更好笑。
微软为啥撤了?
目前没人给出明确解释,但结合实际体验,可以猜测几个原因:
效果确实还有不少问题,特别是语速、音色和发音稳定性
模型生成存在滥用风险,可能涉及音色克隆相关敏感问题
又或者只是个实验项目,不打算继续维护了
总之,下得很快,几乎没有留下什么痕迹。
我们不想嘲笑它。毕竟每一个新技术的落地,都要经过不断试错和重来。也许 VibeVoice 不是「失败」,只是它还没准备好。
我们依然期待微软和社区团队,能带来下一版真正能用、敢用、好用的大模型语音系统。而在那之前,你可以来模力方舟试试看这个「删前遗作」。
听听它离谱的地方,也听听它的可能性。
(不会真有人找不痛快吧?)
AI造物社区创作激励计划来啦,发项目可以赚钱⬇️
来源:夏琳科技论