摘要:2022 年创立的 AI 3D 生成公司 Cybever,此前以「用 AI 生成高精度 3D 虚拟环境」技术闻名,最近转型为内容制作公司 Utopai Studios,由好莱坞一派改革派导演、前派拉蒙 CEO 等投资。官宣的同时,还高调推出了计划制作的两部 A
视频生成的落地拐点仍未出现,但很多公司已经在朝之努力,用不同的方式,尤其是影视行业。
2022 年创立的 AI 3D 生成公司 Cybever,此前以「用 AI 生成高精度 3D 虚拟环境」技术闻名,最近转型为内容制作公司 Utopai Studios,由好莱坞一派改革派导演、前派拉蒙 CEO 等投资。官宣的同时,还高调推出了计划制作的两部 AI 影片。
《科尔特斯》(Cortés):奥斯卡提名编剧 Nicholas Kazan 执笔,好莱坞列为 49 的概念设计师 Kirk Petruccelli 执导,号称「史上最难拍史诗巨作」,被称为是好莱坞呼声最高但未拍摄电影前 10。 Utopai 将以两部 100 分钟电影形式问世。
《太空计划》(Project Space):8 集科幻剧集,由 Vanessa Coifman 和 Martin Weisz 执笔,Martin Weisz 执导,已预售欧洲市场,被形容为「《壮志凌云》遇见《世界大战》」。
Utopai Studios 的掌舵者,是一位 00 后的年轻女性——Cecilia Shen,关于 Utopai Studios 的转型,以及现在视频生成落地影视行业到底难在哪里,我们整理了 Cecilia 此前接受的一些访谈。
Q:为什么选择《科尔特斯》作为第一部片子?未来的内容行业会是什么样的?」
Cecilia: 因为《科尔特斯》是个非常好的故事,40 年前就写好了。我非常尊重作者 Nick 的风格,他非常尊重「真实性」。据我所知,迪士尼在三十几年前就曾经希望拍摄,然后 2020 年的时候 Amazon 又想拍,结果疫情来了,又不得不放弃。《科尔特斯》融合了故事、动作、历史等等,所以,作为第一部作品有很好的说服力。
电影艺术的发展始终与技术革新紧密相连。从无声到有声,从黑白到彩色,每一次技术飞跃都拓展了电影表达的边界。我们代表的是下一次飞跃——不是视听效果的升级,而是制作范式的根本性变革。它打破的不仅是成本壁垒,更是创作思维的局限。在这个新范式下,电影制作的未来不再取决于预算的多少,而在于想象力的边界。这或许是自电影诞生以来,创作者所能获得的最大程度的自由。
关于内容形式,我觉得市场很快会迎来下一波新的内容爆发期。那么,很可能 AI 就是催化剂;市场也有可能因为 AI 迎来新的内容类型。
我们要做一个端到端的影视制作 AI 架构。 通过其高度整合的 AI 模型与自动化工作流,制作成本将被大幅降低,从而将成千上万的电影人从预算的枷锁中解放出来,让他们能以前所未有的速度和极低的成本,将剧本中的故事变为高质量的影像作品。而最关键的是,这一切并不以牺牲质量为前提。
Q:你们算是在自动化制片吗,你怎么看自动化这件事?好莱坞会抵制自动化内容制作这件事吗?
Cecilia: 首先,我认为在接下来的两年,workflow agent 会在各个行业爆发。如果你可以在一个行业里,将 80%~90%的事情实现自动化,那你就是成功的。有两个重心,一个是你是否真的做出来一个好的产品,好的产品需要有好的 taste;我认为最终的衡量标准并不应该是「智能」,因为如果用户需要不断纠正,那么这不是一个好的体验。 第二个是在效率层面是否能真的代替掉 80%的行业臃肿的工作。
但是我觉得不会妥协的永远是质量,质量一定是优先的。观众的眼睛就是尺子,有些时候人们低估了细节带来的影响,所以谈到抵制。我们发现,其实每一个艺术家或者 creators 都像孩子一样,他们并不是抵触技术。比如说 ,《玩具总动员》1995 年上映,这是世界上首部数字制作的动画长片,无论在创意还是技术上都是一次影响深远的跃进,也在全球斩获了将近 4 亿美元的票房收入 ,那么所谓的 AI 被抵触,是否是因为我们用 AI 的方式错了?
所以又回到细节和质量的问题,科技为打造更高质量的产品创造条件,而消费者并不会因为 AI 就愿意降低对质量和故事的追求。
Q:Utopai 想打造一个什么样的科技生态?
Cecilia: 就是构建数据、模型与工作流的「软硬一体」的架构。当前 AI 影视领域的一个普遍问题是,模型与工作流被视为两个独立的环节,彼此割裂。模型公司负责提升算法,制作公司只关注优化流程,两者之间缺乏深度的协同进化。
我们的理念更接近于苹果的「软硬件一体」生态:数据、模型、工作流与创作者,必须是一个深度集成、相互关联、持续优化的闭环系统。 在这个闭环中,真实制作场景中产生的数据被用来优化模型,而更强大的模型则能反过来简化甚至重塑工作流,最终赋能创作者。
Q:自研模型听起来挑战巨大。具体来说,当前 AI 视频模型在专业制作上遇到了哪些核心技术瓶颈?Utopai 又是如何解决的?
Cecilia: 很好的问题。通用大模型为 AI 视频带来了令人惊艳的开端,但从「惊艳的 Demo」到「可靠的专业影视制作」,中间还必须解决:质量,一致性和可控性。
先说质量和一致性,这关乎模型的问题。
目前通用视频模型都是为了服务大众,核心目标之一是优化效率,让大众用户能以最快速度获得「足够好」的结果,而且不仅限于影视,但这往往以牺牲画面质量为代价。我们的战略选择截然相反。我们的模型只为对质量有极致追求的专业影视创作者服务,这个群体愿意为更好的效果等待更长时间。这种明确的定位,让我们摆脱了效率上的束缚,可以在训练模型的时候减少压缩比例,增加特定方向的训练数据,采用更多更强的注意力编码机制,训练出更大、更好、更专注的模型 ;提升模型的 reasoning 能力,将所有计算资源都投入到对影像质量的打磨上等等,确保每一帧都经得起大银幕的考验。
其次是一致性,这在复杂场景中是目前所有模型的噩梦。比如,当多个角色同时运动和互动时,并且镜头也在不停运动的时候,现有模型普遍无法处理好,时常出现角色互相粘连、合并,或者动作违背物理规律的「幻觉」。我们认为,这个问题的根源在于模型对三维世界的理解缺失。视频的本质是 2D 的,多数模型只是在 2D 平面上对像素进行模仿和压缩。我们技术的核心是,在模型训练过程中就将带有物理规律的 3D 数据「注入」其中,让模型不再是学习 2D 画面的表象,而是从根本上提升模型对空间、遮挡、碰撞的认知,避免产生与物理世界不一致的幻觉问题,开始真正理解我们所处的三维世界。我们做了很久的 AI 生成高精 3D 环境的工作,所以这一块是我们的 DNA。
可控性跟工作流密切相关,目前,行业普遍的创作流程依赖大量「抽卡」,也就是反复生成海量内容,从中挑选少数接近创意的结果。这在专业制作中是不可接受的,因为导演对每个画面都有像素级的精确要求,如从广场的布局到水杯的位置,从光线的强弱到角色眼神的角度。在「抽卡」模式下,往往是镜头里这个元素符合了,另一个又偏离了,创作过程充满了随机性和挫败感。我们的解决办法,是用确定的执行导演意图来取代随机生成加挑选。我们的工作流允许导演首先通过故事板,3DPreviz 等方式,快速而准确描绘出一个清晰的草稿。这个草稿不仅是视觉参考,更是包含了导演核心意图的结构化指令。随后,我们的模型与工作流会准确地理解这个意图,并结合影片整体的艺术风格,自动地、有方向性地朝着最终目标进行尝试和调整。这恰恰是强化学习和智能代理等技术擅长的地方。
这或许是 Utopai 与众多「技术颠-覆论」者最根本的区别。其系统设计的核心并非要取代导演或艺术家,恰恰相反,是要将他们从工业的枷锁中解放出来,让他们回归创意王座。
AI 可以生成无穷的选项,但定义品味的,永远是会讲故事和有艺术审美的人。
更深远的意义在于,其系统设计追求人与 AI 之间形成一种共生进化的关系。
Utopai 的发展离不开文生视频技术的飞速进步,它使 AI 不再仅仅是辅助工具,而逐渐成为创作的核心驱动力。过去,电影制作往往需要庞大的资金、人力与时间投入,而如今,借助文生视频模型,导演和创作者只需通过文本描述,就能生成高度逼真的场景与角色,大幅降低了创作门槛。
Utopai 正是抓住这一趋势,将 AI 的创造力与电影产业深度结合,让影片的构思、拍摄到后期制作都更加可控与高效。这不仅缩短了制作周期,还为独立创作者和小型团队带来了前所未有的机会,使他们能够以较低成本实现宏大的视觉表达。更重要的是,Utopai 并不局限于传统电影领域,它的应用还在推动影视工业走向更加智能化、个性化的未来。
未来,电影项目的绿灯将不再仅仅由预算委员会决定。评判标准将更多地回归故事本身的价值:这个故事是否足够动人?想象力是否足够飞扬?当技术的成本壁垒被 AI 击穿,那些曾被埋没的、疯狂的、瑰丽的创意,将迎来最好的时代。
Utopai 正在做的,就是拆掉想象力的栅栏,将电影从「预算的暴政」中解救出来。这不仅是技术升级,更是一场关于创作自由的革命。而这一切,才刚刚开始。
来源:晚晚的星河日记一点号