B站开源最强语言模型，这下完全听不出是机器生成了

360影视国产动漫 2025-09-12 09:39 2

摘要：说实话，这事要放以前，我估计会被一堆“语音模型又来了”的新闻淹没。

最近B站又搞了个大动作。

他们把自家最新的语音合成大模型IndexTTS2开源了。

说实话，这事要放以前，我估计会被一堆“语音模型又来了”的新闻淹没。

但这次有点不一样，我是从一段配音了解到这个模型的：

看完那一刻，我才意识到，B站这次整的，不是“语音模型又来了，而是真能让你喊出一句：

“什么叫他妈的惊喜！”

为什么之前都不行？

大多数语音合成模型分两类：

一类叫“自回归”，一类叫“非自回归”。

自回归的好处是声音更自然，韵律、停顿都比较像真人。

坏处也明显，得一个token一个token地往外蹦。

你想让它说快点，或者精准对齐字幕？那不好意思，很难。

非自回归就反过来，好控制时长，节奏能掐得死死的。

但听起来……怎么说呢，总有点塑料味。

所以以前你想要自然的声音，就得忍受时长对不齐；

你想要精准同步，就得忍受机械感。

两边都想要？对不起，没有。

直到B站的IndexTTS2。

B站首先整了个骚操作。

他们在自回归架构里塞了一个新机制，叫“时间编码”。

结果就是——自回归也能控制时长了。

用官方的例子来说，你可以直接指定：这句话给我说3秒、5秒还是8秒。

模型照做，误差率低得几乎可以忽略。

所以现在你想要自然语音+精确对嘴型，不用选了，直接全都要。

IndexTTS2还有另一个核心升级：音色和情感解耦。

以前模型的音色和情感是一锅乱炖。

你给它一个高兴的参考音频，它既学了声音，又学了情绪。

想换情绪？对不起，你的音色也被换了。

现在不一样了。

你可以先给它一段音色参考（比如某个配音演员的声音），再给它一段完全不同的人说话的情绪参考，甚至只用一句文字描述：“愤怒”、“委屈”、“一本正经”。

模型会学会分开处理：

音色保留，情绪随便加。

这就像是你能让葛优的声音去说一声“莫非起了个东洋名字？”，而且听起来还真好奇激动。

不过，情感一旦激烈，AI语音就容易崩。要么糊成一团，要么突然破音。

B站也注意到了，于是他们加了点GPT的“潜在表示”，来稳住语音生成。

相当于加了个“防抖”，保证即使在“哭腔”或者“大吼大叫”的时候，声音还是清晰的。

除此之外，他们还微调了Qwen3，加了个所谓的“软指令”机制。

听起来很学术，但意思很简单：你直接用一句自然语言就能告诉模型你想要啥情绪，不用再费劲找参考音频了。

比如你直接打：“冷漠疏离一点”，它就能照做。

是不是有点“AI版情绪遥控器”的意思？

实验结果咋样？

真·SOTA（State Of The Art，指某特定时间背景下的最高水准）。

在多个公开数据集上，它的词错率更低，说话人相似度更高，情感保真度也更强。

不仅赢了老对手（像F5-TTS、CosyVoice2），甚至超过了自己上一代IndexTTS。

而且在时长控制上，误差率小到可怕，几乎可以说是“你指定几秒，它就几秒”。

当了半天吃瓜群众，别以为这只是研究员的游戏，B站已经拿它上了实际功能。

他们先在“原声视频翻译”里用了这套模型。

简单说，就是你看一个英文视频，开了功能之后，它能用中文配音，而且音画同步到位。

这就是时长控制的威力。

你大可想象一下：

动漫里，AI直接做原声配音，表情情感等完全对得上。

播客里，你可以把各种语言的稿子丢进去，AI能读得有感情，还能控制节奏。

游戏里，NPC的台词能根据剧情情绪实时变化，不再是死板的一句。

对开发者来说，他们还开源了模型权重和代码，这意味着后面各种玩法一定会层出不穷。

B站这次交出的，不只是一个会说话的AI，而是一个能控时间、能控情绪，还能稳住音质的“全能型配音演员”。

在零样本TTS这个方向，IndexTTS2算是给行业立了个新标杆。

以后你在B站看鬼畜，可能听到的台词就是AI配的，而且一点都不出戏。

甚至哪天，你自己拍了个视频，直接一句话：“帮我配成东北口音”，AI秒出结果。

到那时候，你大概也会忍不住说一句：

这才叫他妈的惊喜。

来源：云阳好先生做实事

标签：模型开源 b站语言机器

本文地址：https://news.43u.com.cn/a/2512987.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!