摘要:说实话,这事要放以前,我估计会被一堆“语音模型又来了”的新闻淹没。
最近B站又搞了个大动作。
他们把自家最新的语音合成大模型IndexTTS2开源了。
说实话,这事要放以前,我估计会被一堆“语音模型又来了”的新闻淹没。
但这次有点不一样,我是从一段配音了解到这个模型的:
看完那一刻,我才意识到,B站这次整的,不是“语音模型又来了,而是真能让你喊出一句:
“什么叫他妈的惊喜!”
为什么之前都不行?
大多数语音合成模型分两类:
一类叫“自回归”,一类叫“非自回归”。
自回归的好处是声音更自然,韵律、停顿都比较像真人。
坏处也明显,得一个token一个token地往外蹦。
你想让它说快点,或者精准对齐字幕?那不好意思,很难。
非自回归就反过来,好控制时长,节奏能掐得死死的。
但听起来……怎么说呢,总有点塑料味。
所以以前你想要自然的声音,就得忍受时长对不齐;
你想要精准同步,就得忍受机械感。
两边都想要?对不起,没有。
直到B站的IndexTTS2。
B站首先整了个骚操作。
他们在自回归架构里塞了一个新机制,叫“时间编码”。
结果就是——自回归也能控制时长了。
用官方的例子来说,你可以直接指定:这句话给我说3秒、5秒还是8秒。
模型照做,误差率低得几乎可以忽略。
所以现在你想要自然语音+精确对嘴型,不用选了,直接全都要。
IndexTTS2还有另一个核心升级:音色和情感解耦。
以前模型的音色和情感是一锅乱炖。
你给它一个高兴的参考音频,它既学了声音,又学了情绪。
想换情绪?对不起,你的音色也被换了。
现在不一样了。
你可以先给它一段音色参考(比如某个配音演员的声音),再给它一段完全不同的人说话的情绪参考,甚至只用一句文字描述:“愤怒”、“委屈”、“一本正经”。
模型会学会分开处理:
音色保留,情绪随便加。
这就像是你能让葛优的声音去说一声“莫非起了个东洋名字?”,而且听起来还真好奇激动。
不过,情感一旦激烈,AI语音就容易崩。要么糊成一团,要么突然破音。
B站也注意到了,于是他们加了点GPT的“潜在表示”,来稳住语音生成。
相当于加了个“防抖”,保证即使在“哭腔”或者“大吼大叫”的时候,声音还是清晰的。
除此之外,他们还微调了Qwen3,加了个所谓的“软指令”机制。
听起来很学术,但意思很简单:你直接用一句自然语言就能告诉模型你想要啥情绪,不用再费劲找参考音频了。
比如你直接打:“冷漠疏离一点”,它就能照做。
是不是有点“AI版情绪遥控器”的意思?
实验结果咋样?
真·SOTA(State Of The Art,指某特定时间背景下的最高水准)。
在多个公开数据集上,它的词错率更低,说话人相似度更高,情感保真度也更强。
不仅赢了老对手(像F5-TTS、CosyVoice2),甚至超过了自己上一代IndexTTS。
而且在时长控制上,误差率小到可怕,几乎可以说是“你指定几秒,它就几秒”。
当了半天吃瓜群众,别以为这只是研究员的游戏,B站已经拿它上了实际功能。
他们先在“原声视频翻译”里用了这套模型。
简单说,就是你看一个英文视频,开了功能之后,它能用中文配音,而且音画同步到位。
这就是时长控制的威力。
你大可想象一下:
动漫里,AI直接做原声配音,表情情感等完全对得上。
播客里,你可以把各种语言的稿子丢进去,AI能读得有感情,还能控制节奏。
游戏里,NPC的台词能根据剧情情绪实时变化,不再是死板的一句。
对开发者来说,他们还开源了模型权重和代码,这意味着后面各种玩法一定会层出不穷。
B站这次交出的,不只是一个会说话的AI,而是一个能控时间、能控情绪,还能稳住音质的“全能型配音演员”。
在零样本TTS这个方向,IndexTTS2算是给行业立了个新标杆。
以后你在B站看鬼畜,可能听到的台词就是AI配的,而且一点都不出戏。
甚至哪天,你自己拍了个视频,直接一句话:“帮我配成东北口音”,AI秒出结果。
到那时候,你大概也会忍不住说一句:
这才叫他妈的惊喜。
来源:云阳好先生做实事