Sora翻车引发对视频生成AI的思考

360影视 2025-01-12 20:42 2

摘要:随着人工智能技术的飞速发展,视频生成AI成为了当下科技领域的热门话题。Sora,这款备受瞩目的视频AI大模型,在发布之初便吸引了众多目光,被寄予厚望。然而,经过一系列的测试与对比,Sora的表现似乎并未达到预期,甚至在多个方面不如国产的可灵。

随着人工智能技术的飞速发展,视频生成AI成为了当下科技领域的热门话题。Sora,这款备受瞩目的视频AI大模型,在发布之初便吸引了众多目光,被寄予厚望。然而,经过一系列的测试与对比,Sora的表现似乎并未达到预期,甚至在多个方面不如国产的可灵。

前言

Sora已经发布快一个月了,小的结合公司内的业务进行了不少案例的测试,也逐渐对这个2月15日发布、被号称“平等创飞每个人”的视频AI大模型祛魅了,其综合表现甚至不如国产的AI视频(没错,就是指可灵)。

于是,我便打算将我测试过程中对Sora的评价、对其功能的思考小小汇总一下,形成这篇文章,与各位大佬分享一二。Sora对比国内AI

目前整体测试起来,Sora在“指令遵循”、“画面逻辑BUG”、“前后细节不一”、“前后画风割裂”、“非真人画风处理”等问题上都不如国产的视频大模型可灵。

下面用一些例子来说明。(为了更清晰地对比两者的能力,我还是会分“低”、“中”、“高”多个难度档位进行测试,难度的提升以“控制主体数量”、“细节描述丰富度”、“动作复杂度”、“是否与场景互动”为大致的边界。)图生视频 – 案例一:人物奔跑

1. 低难度:

左侧为sora,右侧为可灵。

提示词:

人物在奔跑

2. 中难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物在一片黑暗中奔跑

3. 高难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物在奔跑,背后烟雾缭绕

小结:

1.Sora似乎有自己的想法,对于上传的图片基本不会遵循,背景、人物都没有很好地保持“一致性”。而可灵能很好地做到前后保持一致。

2.Sora生成的动作更活跃,动作连贯,不像可灵,生成的是慢动作的内容。图生视频 – 案例二:孙悟空腾云驾雾

1. 低难度:

左侧为sora,右侧为可灵。

提示词:

人物站在云上飞行

2. 中难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物站在云上飞行,衣服飘动

3. 高难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物站在云上飞行,背后烟雾缭绕,背景越来越远

小结:

1.同样基本不用对比,Sora完全没有遵循原本图片的内容,直接从某一帧开始展现自己的无关画面内容。

2.可灵虽然在高难度下没有遵循到远景远离的需求,但是在中低难度下,基本完成了“腾云驾雾”的要求。图生视频 – 案例三:二次元展示图片

1. 低难度:

左侧为sora,右侧为可灵。

提示词:

人物站立不动,衣服随风飘动

2. 中难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物站立不动,衣服随风飘动,武器轻微晃动

3. 高难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物站立不动,衣服随风飘动,人物周围环绕着蓝色火焰

小结:

不说了,在这个场景上,可灵完爆……图生视频 – 案例四:人物打架

1. 低难度:

左侧为sora,右侧为可灵。

提示词:

两人开始打架

2. 中难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,两人开始疯狂打架,拳头速度飞快

3. 高难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,两人开始疯狂打架,拳头速度飞快,地上浓烟滚滚,石头飞溅,背后房屋倒塌

小结:

1.Sora,你小子……无法在原视频上做到指令遵循,你自己变一个视频来遵循指令……

2.提示词不充分的情况下,可灵不会执行“打架”的指令,但是也比Sora好了,至少做到“浓烟滚滚”。文生视频 – 案例五:人在马路上行走

1. 低难度:

左侧为sora,右侧为可灵。

提示词:

一个人在路边行走。

2. 中难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,一个人在路边行走,马路上车很多。

3. 高难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,一个人在路边行走,马路上车很多。突然一辆车把人给撞了。

小结:

1.Sora中低难度下,指令遵循得很好,画面也很清晰,大体上任务动作、物理逻辑都没啥大问题。(除了有个人在反复往前走、往后退)

2.可灵在现实类场景的生成上,效果会比Sora差一些,会有一种“油油”的效果,而且部分画面上会存在物理漏洞(比如路人的手消失了、一辆车逆行停在马路上)。

3.两位AI同学都没有遵循到高难度下的“撞车”指令。文生视频 – 案例六:人在云上飞行

1. 低难度:

2. 中难度:

3. 高难度:

左侧为sora,右侧为可灵。

提示词:

镜头固定,人物站在云上飞行,背后烟雾缭绕,背景越来越远

小结:

在这个场景上,可灵比起Sora就差点意思了。首先,可灵生成的画面不够Sora好看。其次,可灵的画面效果有一种怪异的感觉,特别是低难度下的那个人物(不过也怪我提示词没有描述到人物主体)。汇总小结

1.在图生视频领域,目前是可灵相对领先。可灵能够做到“尊重”用户上传的图片,不给到过多跳跃的想法。(这里批评Sora自己无法在原图片上遵循指令,会自己变出一个画面来遵循指令)不过在相对复杂一点的提示词下,可灵还是做得不是很到位,仅仅起到“让图片稳定地动起来”的效果。

2.在文生视频领域,两者指令遵循效果差不多。但是个人感觉,Sora的生成效果会更具“美感”,相对来说画面效果会更好看。

此外,Sora还有一个优点——“快”,平均一分钟内能产出视频。不过这个和使用人数有一定关系。因此,目前Sora整体上还是比不过国产的可灵,只有在文生视频效果和生成速度上有优势。锐评Sora的“创新”功能

除了视频生成能力,Sora还提出了不少新的视频生成辅助功能,相比起目前市面上的AI视频工具能力,也颇为创新,下面一一列出来简单锐评下。生成参数设置

其中参数设置功能基本上涵盖了市面上都有的能力,比如视频比例、清晰度、时长、抽卡次数。值得一提的是,这里看起来颇为创新的“预设风格”能力,本质上与PixVerse、PIKA的“特效玩法”是一样的。这些都是对某个场景的定向训练结果,用以做到某类固定的特效,比如Pika的“捏碎一切”、PixVerse的“毒液变身”。

目前Sora支持“气球世界、定格动画、档案、黑色电影、纸板和纸艺”这些风格(机翻结果),相比起PixVerse和PIKA,Sora的风格有点保守,不够好玩。

emm,不是很能欣赏。故事板及其衍生应用

值得一提的是,Sora推出了故事板功能。故事板功能允许用户导入脚本,按分镜进行视频创作,从而生成符合需求的视频片段。

虽然即梦也有类似的能力,但是即梦是基于上传的多个分镜 或者 图片描述进行生成,一致性较差。而Sora本质上是基于一个视频生成,会保持一定的视频一致性。

如示例视频,我想生成“一个人走路,然后停下来,最后冲着镜头微笑”的视频。虽然并不能完全遵循三个要求,但是也捉到了一定的“一致性保持”。

基于Sora的故事板能力,Sora还提供了“重新剪辑”功能,能够对一个已经生成的视频进行修改,实现“控制每一秒”的生成内容。

比如示例这里,我可以对一个已经生成的视频进行切割,在中间补充上一个画面进行重新生成。(虽然执行效果不咋地。)

除了可以通过故事板对视频进行二次修改,Sora还提供了重混(Remix)、混合(Blend)、循环(Loop)这三个视频二次编辑功能。

重混(Remix)支持对于已生成的视频使用文字进行修改,支持7个档位的修改。实际测试下来,会存在指令遵循不到位的情况。

比如我想把下方左图的视频变成右图的冬天黑人,结果人物、运镜和动作等已有的结果都丢失了,直接前功尽弃,把我的视频mix得一团糟。

混合(Blend)支持把两个视频融合,融合模式支持3种,分别为过渡、混合、样本、自定义,本质上是控制两个视频的过渡曲线,控制B视频什么时候开始侵入A视频、侵入程度如何。

实际测试下来,这个能力会先结合两个视频的特点,生成一个前后两种“不同但又互相融合特征”的视频,然后加上过度的效果。不过测试了几个案例,发现它的“过度效果”基本都是“发光”,然后渐变过渡,颇为生硬(如中间的图)。甚至有的会直接播一半时候切换到下一个视频(如最右的图)。

小结

整体看下来,Sora的新功能大部分都能在别的厂商的AI视频工具上找到对应。其中较为突出的是在“精准控制生成视频结果”方面的创新,比如:

1.故事板的分镜控制能力。其保持一致性的前提下,控制每一秒的生成内容。

2.视频二次修改能力。通过文本对视频进行二次修改,以保证生成结果符合要求。

但是由于现在Sora底层大模型能力还不够,这些创新方案并没有发挥它们想象的水平,所以看起来“没什么作用”。

不过Sora这里的对于“如何更准确地生成目标视频”这个问题的解题思路,值得参考与学习。但是这类能力估计会对“视频一致性”能力做出一定要求,就算放出相关功能,效果也可能不会很好。可灵还会持续领先吗?

那既然目前测试到Sora整体上不如可灵,那么可灵在未来也会持续保持领先地位吗?小的将沿着之前几篇AI视频相关的思考文章的结论捋一捋。

1.可灵目前能服务更广泛的用户需求,而这是当前阶段竞争的关键。

之前《浅谈当前的AI剪辑工具》提到过未来AI视频厂商更容易卷成的特点,分别是:

1)有用户:用AI视频工具能吸引到足够的目标用户。

2)能赚钱:能够跑通与用户价值交换的商业逻辑。

3)有壁垒:在前两个过程中构建自己的竞争壁垒,以源源不断进行价值交换。

目前AI视频厂商的商业模式基本上都是“能赚钱”的,除非搞“比较离谱”的价格战。所以目前可灵和Sora基本上都不会是“没钱赚的”,但是是否盈利就暂且未知了,可能前期训练成本大于收入。

而随着大模型能力、用户量级、行业方案解决的积累,“有壁垒”这一点是会自然而然就能满足的。

那么小的觉得,目前阶段“谁能领先”的关键应该在于“有用户”这点上。

之前提到过,AI厂商必须围绕目标用户群体的需求进行大模型训练,才能积累到足够的目标用户。而我们可以发现,可灵是相对擅长“图生视频”领域的,而“图生视频”领域覆盖的用户面更广。

为什么会有如此结论?下面是我分析。

如果我们可以按“文生视频”和“图生视频”对AI视频能力进行分类,可以发现:

1)“文生视频”目前适用于“不需要与前后分镜保持一致的”视频生成场景。比如“生成一个风景画面”、“生成只会出现一次的人物”。

2)“图生视频”目前适用于“有一定的基础物料,且需要生成的视频与这些物料保持一致”的视频生成场景。比如“广告介绍画面”、“手办动起来”、“图片动起来”。

相对来说,“图生视频”所适用范围会更广,因为“文生视频”更适合在故事创作的场景,通过适用“文生视频”来补齐画面。而“图生视频”不仅仅能用在娱乐,也可被广告、营销等场景使用,可以生成一些商品的宣传物料、补齐一些视频的片段。(虽然现在有一个“文生视频”分支,允许上传一张图片,让AI参考图片的主体进行文字控制生成,目前在vidu、pika上有这类能力,但是由于现在效果不太行,暂且不提。)

所以,即便可灵目前没法处理“相对复杂的指令”、“相对较大的动作幅度”、“复杂的主体交互逻辑”等需求,仅仅能做到基于“相对简单的指令”执行“幅度一般的动作和偏简单的交互”,但是这也能“赋能”一定范围的视频生产场景了。这比起Sora来说,可灵能服务于更广泛的用户需求,这也意味着拥有获取“更多用户”的潜力。

2.Sora一定程度摧毁了用户的信心,这或许成为后续Sora的阻力。

AI工具有一个特点,就是“黑盒”特征十分明显。用户在进行具体的抽卡之前,都不一定知道“AI能否做好我这个需求?”而且有时候效果不行,并不一定是AI不行,而是抽卡姿势不对(提示词、参数设置不对)。因此要用好AI工具,必须要要有十足的耐心去反反复复地进行抽卡。

然而并不是所有用户都有这么充足的耐心的,大部分用户只会尝试1~2次,看到不行就不管了。所以个人觉得,AI工具厂商需要给到用户充足的“信心”,让其相信“不是工具不行,是我不行”,这样才能让用户拼命抽卡。而构建信心的途径可以是“行业口碑”、“用户案例”、“用户自身经验”等等,这也是厂商们吸引用户以及用户留存的关键因素。

这么说来,Sora的失败营销就是一定程度对“用户信心”进行了打击,这无疑成了后续其发展的阻力。虽然OpenAI这块招牌或许还有点含金量,但是至少相比之前,国内AI视频厂商的竞争难度无疑是下降了的。

基于上面两点,小的认为,能够获取到目标用户群体的AI工具,需要具备以下特点:

1)能满足用户需求:AI工具要先具有解决某类的用户需求的”真本事”,后续才能够真正地获取目标用户。否则,即便营销得再好,工具不能发挥作用,用户也必定流失。

2)能构建用户信心:在“真本事”的基础上,厂商就需要构建足够的用户信心,从而吸引用户来使用工具,并在这个过程中给厂商提供收益。构建信心的过程包括但不限于市场营销、用户运营等获客手段,也可以是在用户使用工具过程中的使用指引、案例展示等能力展示手段。只要用户有足够的信心,便能换来一定量的用户和留存。

3)能提供良好体验:当拥有一定量级的用户后,厂商则可通过“更优秀的用户体验”来促进用户的进一步留存、付费、传播。良好体验包括但不限于工具操作的便捷性、更精准的控制参数等,这些内容能让用户更充分发挥AI工具的能力,从而对工具产生好感,并为此持续活跃、持续付费,甚至是帮厂商推广。

由此可以看到,目前在“满足用户需求”、“构建用户信心”上,可灵是相对做得较好的。这说明可灵目前是相对优势的,但是这也并不意味着可灵是会一直保持优势,因为说不定Sora技术成长速度更快,能够解决更多的“用户需求”,从而做到赶超。毕竟工具产品并没有太高的沉没成本,谁能满足更多需求,谁的性价比更高,用户就用谁的。

所以未来怎么样,小的怎么可能知道。静观其变,拥抱变化。总结

来源:人人都是产品经理

相关推荐