摘要:酝酿了10个月的Soro一登场,生成的体操视频就翻车了。有不少人说这种大幅度的复杂运动视频,所有AI视频模型都无法做好,并且由于技术复杂、难度高,短时间内是无法攻克的技术难题。
酝酿了10个月的Soro一登场,生成的体操视频就翻车了。有不少人说这种大幅度的复杂运动视频,所有AI视频模型都无法做好,并且由于技术复杂、难度高,短时间内是无法攻克的技术难题。
然而1月9日,来自阿里的AI视频大模型通义万相推出的2.1版,迅速打破了这一魔咒。看看它生成的这个运动员花样滑冰视频,还有双人跳水视频,无论是肢体动作,还是视频流畅程度,完全都没有崩坏。
通义万相就这样首度攻克了AI生视频中大幅度复杂运动的稳定性和完美性难题,靠着突出的技术表现,一经推出就以总分84.7%的成绩,迅速登顶了权威视频生成榜单,力压Runway Gen 3、Pika等国内外同类产品。
通义万相2.1是靠什么样的技术实力得以登顶VBench榜首的位置?经过这几天的密集使用测试,发现它具备以下几大优点:
·首先就是生成人物复杂运动视频时的稳定性非常的突出。对AI生成视频稍有接触的小伙伴都知道,此前AI在生成含有人物复杂运动的视频时,比如舞蹈、体操、武术等等,画面都是崩坏的,经常是手脚、胳膊混乱错位,脑袋360度乱转,超级鬼畜,完全没法看。
·但是通义万相2.1现在率先攻克了这一技术难题。在通义万相输入这段提示词,它就快速生成了女运动员花样滑冰的视频。可以看到这名女运动员做了大幅度的跳跃、旋转、落冰等动作,连贯、流畅而优美,所有肢体动作都没有崩坏,就如同在看比赛转播一样真实。
再把这段生成街舞的提示词交给通义万相,可以看到生成的视频中,舞者的动作干脆而利落,动作的爆发力和节奏感十足。舞蹈动作哪怕是逐帧播放,也没有崩坏。可见通义万相在生成人物复杂运动视频上的超高稳定表现,这也是它能登顶VBench榜首的重要原因之一。
·二、能更好的理解和真实的还原物理规律。把这段提示词提交给通义万相,就生成了一名女孩弹吉他的视频。注意看她左手按和弦的手型是对的,没有乱按,右手在快速的扫弦,这样的快速动作,右手也没有崩坏。而国内外其他同类AI产品一做快速的手部动作时,就都崩坏成无影手了。
继续把这段提示词提交给通义万相,生成的是用刀切开一块烤熟的牛肉的视频。这个视频其实有很多细节,当刀切入牛肉时,牛肉由于自身的物理性质,首先会产生凹陷变形。当肉被切开后,内部的纹理就自然地暴露了出来。在灯下下,微红的血色和汁水都显得无比真实。如果不告诉你这是AI生成的,你肯定也看不出来,这就是通义万相的极致物理还原表现。
·三、超强的影视质感、进一步去除了A的味道。在用这段提示词生成的女孩刷牙的视频中,人物的表情转换、皮肤细节、刷牙的动作等,都无限接近真实的摄像实拍。生成的女孩形象,也不再是那种有AI味道的美女,更像是真实的演员。还有就是手部的细节,无论是手指数量、还是手的快速动作,通义万相都经得起逐帧播放的考验。
·四、首次实现了在视频生成中文文字。以红色新年宣抵为背量,出现一流水里晕染图汁缓缓晕染开来。文字的笔画边爆模且自然,随着晕染的进行,水墨在纸上呈现""字,黑色从深到过,呈现出独特的东方韵味,背景高吸简洁,将这段想在视频中呈现出"福"字的提示词输入到通义万相,就真的在生成的视频里出现了"福"这个中文文字。这同样是通义万相在国内外AI同类产品中的首创,这直接进一步拓展了通义万相AI生成视频在广告片和影视作品中的应用场景,也为整个AI生成视频行业树立了新的标杆。
·五、指令遵循能力强。给到通义万相的提示词要求做什么动作,生成的视频就会出现什么动作,不会张冠李戴,南辕北辙。通义万相的控镜能力很强,也很灵活,像镜头平移、拉远、推进等,它都会自动结合视频的主体内容生成合理的镜头表达形式。
·六、支持多种风格、多种长宽比。无论是卡通、动漫、电影、3D、油画还是古典等,通义万相都能根据你的需求生成对应艺术风格的视频。它还支持生成不同长宽比的视频,涵盖16:9、3:4等多种比例,能让生成的视频更好适配在手机、平板、电脑、电视等不同设备上的播放。
正是有了以上这些优点,通义万相2.1版已经可以广泛应用在影视、广告、动漫和短视频等制作领域,能为创作者们节省大量资金和时间成本,更高效的生成高质量的视频作品。开发者们还可以通过阿里云百炼API来调用通义万相2.1版大模型,用于产品开发。
这就是超级强大的AI生成视频工具--通义万相,推荐你现在就来使用它。
来源:社会万花筒