对标Sora,Google发布更强大的Veo 2视频生成模型!

摘要:今年 5 月,Google 在 I/O 大会上发布了对标 OpenAI Sora 的视频生成模型——Veo,它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟。

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

今年 5 月,Google 在 I/O 大会上发布了对标 OpenAI Sora 的视频生成模型——Veo,它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟。

时隔 7 个月,在 OpenAI 官宣 Sora 正式公开可用之际,Google 发布下一代视频生成模型 Veo 2 与之抗衡。Veo 2 不仅提升了视觉真实感,还可以创建分辨率高达 4k(4096 x 2160 像素)的两分钟以上的视频——这一分辨率是 OpenAI Sora 的 4 倍,持续时间更是其 6 倍以上。

据谷歌称,与其他领先模型相比,Veo 2 取得了最先进的成果,尤其是在人类表达方面。

目前,Veo 2 模型可在视频生成工具 VideoFX 和名为 Whisk 的新实验项目中试用,想要尝鲜的小伙伴,需要先申请加入候选名单中(https://deepmind.google/technologies/veo/veo-2/)。它也将在 Google Cloud 上向开发者和企业提供。

Veo 2 有何不同?

Veo 以 Google 多年的生成视频模型工作为基础,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,结合架构、缩放法则和其他技术来提高质量和输出分辨率。

与 Veo 一样,Veo 2 可以生成带有文本提示(例如 “A car racing down a freeway”)或文本和参考图片的视频。

这一最新版本有了很大的改进。Google 表示,Veo 2 能够理解现实世界的物理现象与规律,并生成各种主题和风格的高质量“更清晰”的视频。这对于 AI 视频生成模型而言是一项重大突破,因为即使是 OpenAI Sora,有时候也难以理解物理现象。

Veo 2 还掌握了电影艺术独特的语言:用户可以指定一个类型、选择镜头、建议电影效果,Veo 2 就能生成满足要求的视频,分辨率最高可达 4K,时长延展至数分钟。

比如,可以要求一个低角度跟踪镜头,平滑穿过场景中心,或者一个科学家通过显微镜观察时的面部特写镜头。

Google 表示,用户可以在提示中指定“18mm 镜头”,Veo 2 会生成这种镜头特有的广角画面;如果希望背景虚化、焦点集中在主体上,只需在提示中加入“浅景深”,Veo 2 就能实现这一效果。

除此之外,Veo 2 能更逼真地模拟运动、流体动力学(例如咖啡倒入杯中的过程)以及光线特性(如阴影和反射)。

值得注意的是,尽管当前 AI 生成的视频整体效果已相当出色,但 Google 也坦言,其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”,比如多出的手指或意外出现的物体。

对此,DeepMind 产品副总裁 Eli Collins 表示, 连贯性和一致性是当前需要改进的重点领域。虽然 Veo 能在几分钟内较好地遵循提示,但在长时间处理复杂提示时仍存在困难。此外,角色一致性也是一项挑战。同时,模型在生成复杂细节、快速且复杂的动作方面仍有提升空间,进一步推进逼真度的极限是未来的重点方向。

Collins 还指出,DeepMind 正与艺术家和制作人合作,持续优化视频生成模型及工具。“我们从 Veo 开发初期就与 Donald Glover、The Weeknd、d4vd 等创作者展开合作,深入理解他们的创作流程,探索技术如何帮助实现他们的创意愿景。与创作者在 Veo 1 上的合作为 Veo 2 的开发提供了重要反馈。我们期待与更多可信赖的测试者和创作者合作,进一步完善这一新模型。”

不过,Google 强调,Veo 2 发生此类错误的频率显著降低,生成结果更加逼真自然。

训练与安全

目前,Google DeepMind 并未透露 Veo 2 视频生成模型所使用的数据来源。由于生成模型在训练过程中存在一定风险,例如反流现象——即模型生成与训练数据高度相似的内容,DeepMind 采取了相应的解决方案,包括在生成阶段引入提示级过滤器,以屏蔽暴力、露骨及其他敏感内容。

此外,DeepMind 有意采取稳步推进的策略,通过 VideoFX、YouTube 和 Vertex AI 逐步发布 Veo 模型,确保在推广过程中能够持续识别、理解并改进模型的质量与安全性。

与其他图像和视频生成模型一样,Veo 2 的输出内容包含不可见的 SynthID 水印,可标识这些内容为 AI 生成,有助于减少错误信息传播与内容误归因的风险。

图像生成工具 Imagen 3 升级

除了 Veo 2,Google DeepMind 还宣布对其商用图像生成模型 Imagen 3 进行升级。

新版本的 Imagen 3 在本周一开始向 Google 图像生成工具 ImageFX 的用户推出,覆盖全球 100 多个国家/地区。据 DeepMind 透露,升级后的 Imagen 3 能够生成更加“明亮、构图更佳”的图像和照片,支持写实风格、印象派和动漫风格等多种表现形式。

DeepMind 表示:“此次对 Imagen 3 的升级使模型能够更忠实地遵循提示,并呈现更丰富的细节和纹理。”

此外,ImageFX UI 也进行了更新。现在,当用户输入提示词时,关键词会变为“小标签”,用户可通过下拉菜单选择相关的词汇建议。同时,系统还会在提示框下方提供一行自动生成的描述词,用户可以利用这些选项调整和优化提示内容。

小灰老师在CSDN平台的首场直播即将开播!本次直播小灰老师将围绕“为什么要学习算法?程序员如何学好算法?“来为大家进行分享。他通过讲解在计算机领域和非计算机领域算法的概念,并与大家共同探讨程序员学习基础算法的意义和七类常用的基础算法,最后为大家总结程序员应该通过什么途径去学习算法。

来源:CSDN

相关推荐