摘要:视频由一系列连续的图片帧快速播放而形成,在拍摄过程中,一旦出现漏拍或少帧问题,视频画面的流畅性和连贯性将受到极大影响,视频生成大模型恰好可以帮助视频创作者在事后挽救这一问题。
实测可灵、即梦、通义万相AI生成视频首尾帧
作者/ IT时报记者 沈毅斌
编辑/ 潘少颖 孙妍
视频由一系列连续的图片帧快速播放而形成,在拍摄过程中,一旦出现漏拍或少帧问题,视频画面的流畅性和连贯性将受到极大影响,视频生成大模型恰好可以帮助视频创作者在事后挽救这一问题。
让视频创作者觉得更为方便的是视频生成大模型的首尾帧功能,只要给出起始与结束的两张图片,大模型就能用连贯的影像把两张照片串联起来,不仅能让画面过渡自然,还能通过文案对运动中的光影、形态等细节进行微调,生成更加精致的视频。
如今,首尾帧已经成为视频生成大模型的“秀肌肉”功能,究竟谁家效果最好?《IT时报》记者选取可灵、即梦、通义万相三个视频生成大模型,以统一图片和提示词进行实测,直观感受每款大模型的特点与能力。
场景一 动物变人
首尾帧图片:山林间的狐狸和月光下的少女
提示词:狐狸通过转身动作变成月光下的白衣少女,体现出仙境玄幻感。
可灵:
在不少仙侠剧中,经常会出现动物修炼成人的场景,也是使用特效较多的场景。在输入图片和提示词后,可灵的生成时间约为3分钟。首帧图片中的狐狸扭头转身,动作流畅丝滑,毛发也会随风而动,尤其是身后飘动的烟雾,可以看出其理解了提示词中的仙境之意。随后烟雾渐浓形成画面遮幕,待烟雾散去,变化为尾帧白衣少女的形象。尽管只有1秒多时间,但可灵将望月、眨眼等细节都补全了。在三款大模型中,可灵对该场景流畅度与细节的呈现最好。
即梦:
即梦生成视频的速度最快,但效果并不理想。首帧中,只能看到狐狸微微飘动的毛发,没有提示词中的转身动作,并且呈现时间仅1秒。变换过程十分生硬,通过叠加虚化进行切换,没有理解“仙境”一词,更没有玄幻的感觉,尾帧画面甚至出现少女面部形变、模糊等问题。值得一提的是,即梦使用首尾帧功能需要切换到“视频1.2”版本,较为高级的2.0和3.0版本暂时不支持首尾帧,模型版本低也导致效果呈现不佳。
通义万相:
首尾帧是通义万相最新上线的功能,从整体效果来看,虽不如可灵,但其也能理解部分提示词。比如狐狸扭动头部、毛发飘逸,背景中的树叶也随风摆动,动作细节满满。与即梦同样的问题是,变化太生硬,画面翻转就过渡到尾帧,较为突兀,也没有体现出仙境的云雾缭绕之感。尾帧画面也十分短暂,仅呈现1秒不到,虽没出现形变,但图片中,少女动效较弱,基本还是图片的静止状态。
场景二 人物动作
首尾帧图片:竹林里的侠客和使用火焰魔法舞动双手的侠客
提示词:武侠双手燃起火焰,点燃落下的竹叶,镜头旋转拉远。
可灵:
生成该场景时,可灵不仅保持较好的生成效果,也更接近于一条连贯的视频。首帧图片中,可灵聚焦于侠客面部,随着画面旋转拉远,手部动作逐渐呈现出来,摆出太极架势,火焰在掌间燃起。为了体现出火焰魔法,火光还将侠客面部映红,最终定格在尾帧图片上。所有提示词都呈现出来,并形成丝滑流畅的过渡。若说不足,则是画面中的部分竹子从侠客身前穿越至身后,细节还可以微调。
即梦:
为了能让画面过渡更加自然,记者在该场景使用的两张图片具有较强的关联性,甚至主角都是一个人。但整体来看,即梦生成的视频没有过渡和转场,如同首尾两张动图的拼接。尽管竹叶有些许飘动,火焰也呈现出燃烧状态,但身为主角的侠客在画面中没有任何动作,镜头也仅是缓缓拉远。唯一值得点赞的是光影效果,竹叶的青绿会倒映在眼中,火焰照亮脸庞。
通义万相:
通义万相生成的视频中,侠客的动作大开大合,火焰特效会随着挥掌动作形成一道火光,光影效果增加了画面气势。镜头也与提示词一致,有旋转也有拉远,不过在运镜过程中,会出现模糊的情况,画面转换依旧美中不足。尽管通义万相采用火焰作为衔接点,减少些许突兀感,但整体画面跳跃,对视频连贯性还是造成影响,丝滑程度比不上可灵。
场景三 场景变化
首尾帧图片:积雪覆盖的高山和山脚下的木屋村庄
提示词:从积雪覆盖的山峰缓缓推进至山脚下宁静的村庄,晨雾弥漫在木屋之间,镜头由远及近。
可灵:
该场景的可动性不强,主要考验首尾帧与运镜之间的过渡连贯性。在可灵的首帧图片中可以看到,山峰倒映在湖面,被风吹过水波粼粼。随后叠加虚化转场,场景就变成尾帧的村庄,没有体现由远及近的运镜,也没有呈现晨雾弥漫的环境。在场景变化方面,可灵表现不如另外两个测试场景。
即梦:
无论是首帧,还是尾帧,即梦生成的视频都出现不同程度的抖动,山峰和木屋是本该静止的主体,但在视频中会或左右或上下抖动,尤其是尾帧图片,木屋左下角还出现会动的石头这一错误。运镜方面,同样是叠加虚化转场,没有体现由远及近的运镜。
通义万相:
在该场景下,通义万相更注重细节表现。首帧中,湖泊泛起涟漪,山峰上的阳光也会随时间推移出现变化,颇有延时摄影的感觉。不过,尾帧画面基本是一闪而过,完全没有展现出从全景到近景的运镜。
避坑指南
1.首尾帧图片关联性相差不要太大。因为生成视频时间有限,毫无关联的两张图片会出现运镜不完整、过渡太突兀等情况,也不能很好地呈现出视频连贯性。
2.提示词与首尾帧图片保持一致,最好不要在画面中无中生有。例如首帧是一颗苹果挂在树上,尾帧为落地的苹果,如果提示词中增加“苹果砸到人再滚落到地上”,画面可能就出现错误或不能按照提示词呈现。
3.如果首尾帧中有重要细节或特征,要在提示词中明确说明,不然大模型可能无法准确保留。例如首帧中人物的特殊服饰花纹,若不强调,生成视频中过程可能就会丢失。
4.多次生成才能达到满意效果。上述测试结果均为一次生成,不同模型在不同时间、不同服务器负载下生成效果可能有差异。可以多测试几次,选择效果稳定的模型,若对生成结果不满意,可调整参数或更换模型重新生成。
来源:澎湃新闻客户端