Veo 3可以生成视频及其配乐

360影视 国产动漫 2025-05-21 07:30 3

摘要:谷歌在2025年I/O开发者大会上发布了新的视频生成AI模型Veo 3,该模型不仅能生成视频,还能创作音频,包括音效、背景噪音和对话,显著提升视频质量。Veo 3通过Gemini聊天机器人应用向订阅用户开放,用户可通过文本或图像提示与之互动。随着市场上视频生成

#头条精品计划#

谷歌在2025年I/O开发者大会上发布了新的视频生成AI模型Veo 3,该模型不仅能生成视频,还能创作音频,包括音效、背景噪音和对话,显著提升视频质量。Veo 3通过Gemini聊天机器人应用向订阅用户开放,用户可通过文本或图像提示与之互动。随着市场上视频生成工具的激增,Veo 3的音频输出成为其竞争优势,尤其是其能够同步生成声音与视频片段。DeepMind的进展可能为Veo 3的发展奠定基础,同时该公司还实施了水印技术以应对深度伪造的担忧。尽管Veo 3被视为强大的创意工具,但也引发了艺术界对传统行业的威胁担忧,预计到2026年,AI可能影响超过100,000个相关职位。

谷歌推出了最新的视频生成人工智能模型 Veo 3,该模型能够为生成的视频片段创作音频。此次公告于周二在谷歌 I/O 2025 开发者大会上发布。根据公司介绍,Veo 3 可以生成音效、背景噪音,甚至对话,以增强其制作的视频。此外,谷歌声称,Veo 3 在视频质量上相较于前作 Veo 2 有了显著提升。

自周二起,Veo 3 通过 Gemini 聊天机器人应用向谷歌 AI Ultra 计划的订阅用户开放,月费为 1,749.99 元人民币。用户可以通过提供文本或图像作为提示与 Veo 3 进行互动。谷歌 DeepMind 的首席执行官 Demis Hassabis 在新闻发布会上强调,这标志着视频生成的无声时代的重大转变。他指出,用户可以向 Veo 3 提供描述角色、环境,甚至建议对话以及所需声音的描述。

可用的视频生成工具激增,导致市场竞争异常激烈。许多初创公司,包括 Runway、Lightricks、Genmo、Pika、Higgsfield、Kling 和 Luma,以及 OpenAI 和阿里巴巴等大型科技公司,正在迅速推出各自的模型。在许多情况下,这些模型之间的差异微乎其微。然而,音频输出可能成为 Veo 3 的关键差异点,前提是谷歌能够兑现其承诺。尽管 AI 生成的声音工具并不新鲜,但据谷歌介绍,Veo 3 的独特之处在于它能够解读视频中的原始像素,并自动将生成的声音与视频片段同步。

由 Veo 3 生成的一个示例片段展示了其能力。TechCrunch 活动 TechCrunch Sessions: AI 邀请与会者为一天的专家讲座、工作坊和与 OpenAI、Anthropic 和 Cohere 等行业领袖的网络交流活动预留名额。在有限的时间内,门票仅需 292 元人民币,为对 AI 领域感兴趣的人士提供了宝贵的机会。该活动将在加利福尼亚州的伯克利举行,感兴趣的参与者可以立即注册以确保出席。

Veo 3 的开发很可能是 DeepMind 在“视频到音频”人工智能技术方面先前进展的结果。去年六月,DeepMind 宣布其致力于创造能够为视频生成配乐的 AI,通过使用声音、对话文本和视频片段的混合训练模型。虽然 DeepMind 尚未披露训练 Veo 3 的具体来源,但可以推测,谷歌拥有的 YouTube 内容可能被利用。DeepMind 之前曾表示,像 Veo 这样的模型可以在一些 YouTube 材料上进行训练。

为了解决对深度伪造的担忧,DeepMind 实施了其专有的水印技术 SynthID,以在 Veo 3 生成的帧中嵌入不可见的标记。尽管谷歌将 Veo 3 宣传为强大的创意工具,但许多艺术家表达了合理的担忧,因为这项技术对传统行业构成威胁。由代表好莱坞动画师和漫画家的动画工会委托的一项研究估计,到 2026 年,美国电影、电视和动画行业将有超过 100,000 个工作岗位可能受到 AI 进步的影响。此外,谷歌还为 Veo 2 引入了新功能,允许用户提供角色、场景和物体的图像,以提高一致性,并操控相机运动和剪辑尺寸。这些新功能预计将在接下来的几周内整合到谷歌的 Vertex AI API 平台中。

来源:老孙科技前沿

相关推荐