Sora再度败北，国产AI视频大模型再出王者，视频效果无敌！

摘要：酝酿了10个月的Soro一登场，生成的体操视频就翻车了。有不少人说这种大幅度的复杂运动视频，所有AI视频模型都无法做好，并且由于技术复杂、难度高，短时间内是无法攻克的技术难题。

酝酿了10个月的Soro一登场，生成的体操视频就翻车了。有不少人说这种大幅度的复杂运动视频，所有AI视频模型都无法做好，并且由于技术复杂、难度高，短时间内是无法攻克的技术难题。

然而1月9日，来自阿里的AI视频大模型通义万相推出的2.1版，迅速打破了这一魔咒。看看它生成的这个运动员花样滑冰视频，还有双人跳水视频，无论是肢体动作，还是视频流畅程度，完全都没有崩坏。

通义万相就这样首度攻克了AI生视频中大幅度复杂运动的稳定性和完美性难题，靠着突出的技术表现，一经推出就以总分84.7%的成绩，迅速登顶了权威视频生成榜单，力压Runway Gen 3、Pika等国内外同类产品。

通义万相2.1是靠什么样的技术实力得以登顶VBench榜首的位置？经过这几天的密集使用测试，发现它具备以下几大优点：

·首先就是生成人物复杂运动视频时的稳定性非常的突出。对AI生成视频稍有接触的小伙伴都知道，此前AI在生成含有人物复杂运动的视频时，比如舞蹈、体操、武术等等，画面都是崩坏的，经常是手脚、胳膊混乱错位，脑袋360度乱转，超级鬼畜，完全没法看。

·但是通义万相2.1现在率先攻克了这一技术难题。在通义万相输入这段提示词，它就快速生成了女运动员花样滑冰的视频。可以看到这名女运动员做了大幅度的跳跃、旋转、落冰等动作，连贯、流畅而优美，所有肢体动作都没有崩坏，就如同在看比赛转播一样真实。

再把这段生成街舞的提示词交给通义万相，可以看到生成的视频中，舞者的动作干脆而利落，动作的爆发力和节奏感十足。舞蹈动作哪怕是逐帧播放，也没有崩坏。可见通义万相在生成人物复杂运动视频上的超高稳定表现，这也是它能登顶VBench榜首的重要原因之一。

·二、能更好的理解和真实的还原物理规律。把这段提示词提交给通义万相，就生成了一名女孩弹吉他的视频。注意看她左手按和弦的手型是对的，没有乱按，右手在快速的扫弦，这样的快速动作，右手也没有崩坏。而国内外其他同类AI产品一做快速的手部动作时，就都崩坏成无影手了。

继续把这段提示词提交给通义万相，生成的是用刀切开一块烤熟的牛肉的视频。这个视频其实有很多细节，当刀切入牛肉时，牛肉由于自身的物理性质，首先会产生凹陷变形。当肉被切开后，内部的纹理就自然地暴露了出来。在灯下下，微红的血色和汁水都显得无比真实。如果不告诉你这是AI生成的，你肯定也看不出来，这就是通义万相的极致物理还原表现。

·三、超强的影视质感、进一步去除了A的味道。在用这段提示词生成的女孩刷牙的视频中，人物的表情转换、皮肤细节、刷牙的动作等，都无限接近真实的摄像实拍。生成的女孩形象，也不再是那种有AI味道的美女，更像是真实的演员。还有就是手部的细节，无论是手指数量、还是手的快速动作，通义万相都经得起逐帧播放的考验。

·四、首次实现了在视频生成中文文字。以红色新年宣抵为背量，出现一流水里晕染图汁缓缓晕染开来。文字的笔画边爆模且自然，随着晕染的进行，水墨在纸上呈现""字，黑色从深到过，呈现出独特的东方韵味，背景高吸简洁，将这段想在视频中呈现出"福"字的提示词输入到通义万相，就真的在生成的视频里出现了"福"这个中文文字。这同样是通义万相在国内外AI同类产品中的首创，这直接进一步拓展了通义万相AI生成视频在广告片和影视作品中的应用场景，也为整个AI生成视频行业树立了新的标杆。