B站开源最强语言模型,这下完全听不出是机器生成了

360影视 国产动漫 2025-09-12 09:39 2

摘要:说实话,这事要放以前,我估计会被一堆“语音模型又来了”的新闻淹没。

最近B站又搞了个大动作。

他们把自家最新的语音合成大模型IndexTTS2开源了。

说实话,这事要放以前,我估计会被一堆“语音模型又来了”的新闻淹没。

但这次有点不一样,我是从一段配音了解到这个模型的:

看完那一刻,我才意识到,B站这次整的,不是“语音模型又来了,而是真能让你喊出一句:

什么叫他妈的惊喜!

为什么之前都不行?

大多数语音合成模型分两类:

一类叫“自回归”,一类叫“非自回归”。

自回归的好处是声音更自然,韵律、停顿都比较像真人。

坏处也明显,得一个token一个token地往外蹦。

你想让它说快点,或者精准对齐字幕?那不好意思,很难。

非自回归就反过来,好控制时长,节奏能掐得死死的。

但听起来……怎么说呢,总有点塑料味。

所以以前你想要自然的声音,就得忍受时长对不齐;

你想要精准同步,就得忍受机械感。

两边都想要?对不起,没有。

直到B站的IndexTTS2。

B站首先整了个骚操作。

他们在自回归架构里塞了一个新机制,叫“时间编码”。

结果就是——自回归也能控制时长了。

用官方的例子来说,你可以直接指定:这句话给我说3秒、5秒还是8秒。

模型照做,误差率低得几乎可以忽略。

所以现在你想要自然语音+精确对嘴型,不用选了,直接全都要。

IndexTTS2还有另一个核心升级:音色和情感解耦

以前模型的音色和情感是一锅乱炖。

你给它一个高兴的参考音频,它既学了声音,又学了情绪。

想换情绪?对不起,你的音色也被换了。

现在不一样了。

你可以先给它一段音色参考(比如某个配音演员的声音),再给它一段完全不同的人说话的情绪参考,甚至只用一句文字描述:“愤怒”、“委屈”、“一本正经”。

模型会学会分开处理:

音色保留,情绪随便加。

这就像是你能让葛优的声音去说一声“莫非起了个东洋名字?”,而且听起来还真好奇激动。

不过,情感一旦激烈,AI语音就容易崩。要么糊成一团,要么突然破音。

B站也注意到了,于是他们加了点GPT的“潜在表示”,来稳住语音生成。

相当于加了个“防抖”,保证即使在“哭腔”或者“大吼大叫”的时候,声音还是清晰的。

除此之外,他们还微调了Qwen3,加了个所谓的“软指令”机制。

听起来很学术,但意思很简单:你直接用一句自然语言就能告诉模型你想要啥情绪,不用再费劲找参考音频了。

比如你直接打:“冷漠疏离一点”,它就能照做。

是不是有点“AI版情绪遥控器”的意思?

实验结果咋样?

真·SOTA(State Of The Art,指某特定时间背景下的最高水准)。

在多个公开数据集上,它的词错率更低,说话人相似度更高,情感保真度也更强。

不仅赢了老对手(像F5-TTS、CosyVoice2),甚至超过了自己上一代IndexTTS。

而且在时长控制上,误差率小到可怕,几乎可以说是“你指定几秒,它就几秒”。

当了半天吃瓜群众,别以为这只是研究员的游戏,B站已经拿它上了实际功能。

他们先在“原声视频翻译”里用了这套模型。

简单说,就是你看一个英文视频,开了功能之后,它能用中文配音,而且音画同步到位。

这就是时长控制的威力。

你大可想象一下:

动漫里,AI直接做原声配音,表情情感等完全对得上。

播客里,你可以把各种语言的稿子丢进去,AI能读得有感情,还能控制节奏。

游戏里,NPC的台词能根据剧情情绪实时变化,不再是死板的一句。

对开发者来说,他们还开源了模型权重和代码,这意味着后面各种玩法一定会层出不穷。

B站这次交出的,不只是一个会说话的AI,而是一个能控时间、能控情绪,还能稳住音质的“全能型配音演员”。

在零样本TTS这个方向,IndexTTS2算是给行业立了个新标杆。

以后你在B站看鬼畜,可能听到的台词就是AI配的,而且一点都不出戏。

甚至哪天,你自己拍了个视频,直接一句话:“帮我配成东北口音”,AI秒出结果。

到那时候,你大概也会忍不住说一句:

这才叫他妈的惊喜。

来源:云阳好先生做实事

相关推荐