摘要:前阵子,国产视频生成AI模型“可灵”发布了1.6版后,这版模型可实现的一个效果,是让是可以塑料手办们“动起来”。这无疑是乐坏了不少手办爱好者,纷纷开始琢磨如何最大化地利用关键字,也让可灵AI的排队时间直接干到了数小时。
主要问题是史密斯本人比AI还癫。
前阵子,国产视频生成AI模型“可灵”发布了1.6版后,这版模型可实现的一个效果,是让是可以塑料手办们“动起来”。这无疑是乐坏了不少手办爱好者,纷纷开始琢磨如何最大化地利用关键字,也让可灵AI的排队时间直接干到了数小时。
B站up“伊朗猢狲波斯猴”的视频(BV1sP6LYoEpi)于此同时在海外,当下最大众化的AI生成视频讨论话题却显得有些复古——是关于怎么用AI让威尔·史密斯去吃意大利面。
你或许还有印象, 2023年,在那个AI生成视频刚刚起步的时代,生产的内容大多还抽象得很,经典案例就是Reddit上有人用“威尔·史密斯吃意大利面”生成的这段视频——画面上仿佛伪人一样的“威尔·史密斯”在那里拿着意面手舞足蹈,做出各种莫名其妙的张嘴和咀嚼动作,仿佛什么诡异的祭祀场景。
截取自最先火起来的威尔·史密斯吃面视频这则视频被转发推特后,获得了超过900万的播放量。在之后的日子里,越来越多的爱好者尝试让威尔·史密斯品尝意大利面。史密斯吃面的姿势有多真实,也成了判断众多“文字转视频”的AI模型综合实力的测试方式之一。在一次又一次的失败整活后,众多AI模型也再度回忆起了被“面条”支配的恐怖。
实际到了2024年,大家就发现AI生成的威尔·史密斯开始能正确地使用叉子,也能做出一些比较像样的咀嚼动作。虽然还时有穿帮、变形和抽搐,吃一半开始“反刍”也属于AI常见问题,偶尔也会出现“威尔·史密斯在面条和肉球组成的泳池中泡澡”的奇妙场景。但综合下来,要远胜于一年前的“伪人模仿人类”的结果。
到了2025年,大家则发现随着AI生成视频技术的进一步迭代,如今威尔·史密斯终于能好好地坐在桌前,流畅而自然地品尝起桌前的意面。配合如今已经炉火纯青的AI配音技术,整个视频甚至像是真人拍摄的一般自然,只有长度有限的片段、不断切换的衣着和背景等细节还能看出破绽。
让AI从短短两年不到的时间就由抽象伪人进化到以假乱真的地步,原因之一就是AI视频模型引入了DaS(Diffusion as Shader)生成控制模型技术。这个新的模型简单来说就是赋予了AI “3d感知”的能力,其背后的原理其实和游戏中的3D引擎有着相似之处:AI会先在三维空间中构筑不同物体的坐标,再根据物体的相对位置生成每一帧的图像。
这让AI视频不再停留在“吃了没熟的菌子”那种毫无逻辑的幻景状态。一些比较强大的视频模型,不光可以让角色可以做出一些带有转身跳跃之类的复杂动作,还能正确做出一些电影级的运镜。
而在众多的视频生成AI中,除去OpenAI的Sora、Runawy这样的海外老将之外,国产的海螺、可灵也在这个赛道表现十分抢眼。比如上面这段2025年版的威尔·史密斯吃意面,就是由国产的可灵生成的。
这个AI视频甚至比威尔·史密斯本人还更像真人。在2024年,作为对于这个热门梗的回应,威尔·史密斯整了一系列的“反向欺诈”:他放出了若干个自己吃面的视频剪辑,通过对于AI常见错误惟妙惟肖的模仿,让很多人误以为视频中的威尔·史密斯也是众多“假货”之一。成功实现了倒反天罡的“真人伪装成AI”。
威尔·史密斯还给这个视频加上了“如今的AI视频”标题,让不少人信以为真当然,在AI生成视频也进入以假乱真的境界后,关于AI滥用的话题也再一次被提起。不知道是不是受到威尔·史密斯那套“比AI更癫”的思路影响,有些人建议大家可以定制一些“假指套”戴在手上进行预防:这样一来就算自己被拍下照片录下视频,也都是些“六指琴魔”,大可说是AI生成的,倒将AI一军。
“假亦真时真亦假”的古典智慧,在新时代下到底有多少用,还是挺难说的。
来源:游研社