微软VibeVoice跑路了？我们提前留了底，一起听听有多离谱

摘要：最近，微软悄悄把开源的语音生成模型 VibeVoice 全都下架，只留下一个 1.5B 的小模型。

最近，微软悄悄把开源的语音生成模型 VibeVoice 全都下架，只留下一个 1.5B 的小模型。

VibeVoice 仅剩下 Readme 的仓库中，还留下了下面这几个 issue：

没有解释，没有公告。只留下一个问题：这个模型，到底是有多离谱？

我们提前留了一份，现在还可以在模力方舟上跑得起来。如果你也好奇，就一起来听听看，VibeVoice 到底离谱在哪里。

VibeVoice-Large 体验链接：https://ai.gitee.com/serverless-api?model=VibeVoice-Large

VibeVoice 原本想做什么？

VibeVoice 原本的定位是一个支持长文本、多说话人、情绪控制的语音生成模型，结构上用了：

采用 Qwen2.5（1.5B / 7B）作为核心语言理解模块，负责解析文本与说话人上下文

自研 7.5Hz 的超低帧率语音 tokenizer

Diffusion Head 做音频生成，理想上可以合成长达 90 分钟的多角色对话

VIBEVOICE 声称在偏好度、自然度与表达丰富性上全面领先

听起来确实挺有想法，也有点野心。

实际效果到底如何？

我们在模力方舟保存了模型，并做了几组测试。用同一段对话，生成出了不同感觉：

原文： Speaker 1:大家好，欢迎收看《危殆的星球》。我是主持人爱丽丝。今天我们一起来讨论一份令人警醒的新报告，这份报告回顾了过去十年（从2015年到2025年）的气候变化情况。它所呈现的不仅是气温的持续上升，更揭示了一种危险的加速趋势。今天我们有幸邀请到专家小组来为我们解读这份报告。欢迎卡特、弗兰克和玛雅。 Speaker 2:你好，爱丽丝，很高兴来到这里。我是卡特。自带 BGM 型
突然串台型（28 秒后）
感觉有点喝多了型（30 秒开始）
外星人对话型

说实话，有些场景下效果确实勉强还能听，但有些只能说不听后悔，听了更好笑。

微软为啥撤了？

目前没人给出明确解释，但结合实际体验，可以猜测几个原因：

效果确实还有不少问题，特别是语速、音色和发音稳定性

模型生成存在滥用风险，可能涉及音色克隆相关敏感问题

又或者只是个实验项目，不打算继续维护了

总之，下得很快，几乎没有留下什么痕迹。

我们不想嘲笑它。毕竟每一个新技术的落地，都要经过不断试错和重来。也许 VibeVoice 不是「失败」，只是它还没准备好。

我们依然期待微软和社区团队，能带来下一版真正能用、敢用、好用的大模型语音系统。而在那之前，你可以来模力方舟试试看这个「删前遗作」。

听听它离谱的地方，也听听它的可能性。

（不会真有人找不痛快吧？）

AI造物社区创作激励计划来啦，发项目可以赚钱⬇️