Veo 3可以生成视频及其配乐

摘要：谷歌在2025年I/O开发者大会上发布了新的视频生成AI模型Veo 3，该模型不仅能生成视频，还能创作音频，包括音效、背景噪音和对话，显著提升视频质量。Veo 3通过Gemini聊天机器人应用向订阅用户开放，用户可通过文本或图像提示与之互动。随着市场上视频生成

#头条精品计划#

谷歌在2025年I/O开发者大会上发布了新的视频生成AI模型Veo 3，该模型不仅能生成视频，还能创作音频，包括音效、背景噪音和对话，显著提升视频质量。Veo 3通过Gemini聊天机器人应用向订阅用户开放，用户可通过文本或图像提示与之互动。随着市场上视频生成工具的激增，Veo 3的音频输出成为其竞争优势，尤其是其能够同步生成声音与视频片段。DeepMind的进展可能为Veo 3的发展奠定基础，同时该公司还实施了水印技术以应对深度伪造的担忧。尽管Veo 3被视为强大的创意工具，但也引发了艺术界对传统行业的威胁担忧，预计到2026年，AI可能影响超过100,000个相关职位。

谷歌推出了最新的视频生成人工智能模型 Veo 3，该模型能够为生成的视频片段创作音频。此次公告于周二在谷歌 I/O 2025 开发者大会上发布。根据公司介绍，Veo 3 可以生成音效、背景噪音，甚至对话，以增强其制作的视频。此外，谷歌声称，Veo 3 在视频质量上相较于前作 Veo 2 有了显著提升。

自周二起，Veo 3 通过 Gemini 聊天机器人应用向谷歌 AI Ultra 计划的订阅用户开放，月费为 1,749.99 元人民币。用户可以通过提供文本或图像作为提示与 Veo 3 进行互动。谷歌 DeepMind 的首席执行官 Demis Hassabis 在新闻发布会上强调，这标志着视频生成的无声时代的重大转变。他指出，用户可以向 Veo 3 提供描述角色、环境，甚至建议对话以及所需声音的描述。

可用的视频生成工具激增，导致市场竞争异常激烈。许多初创公司，包括 Runway、Lightricks、Genmo、Pika、Higgsfield、Kling 和 Luma，以及 OpenAI 和阿里巴巴等大型科技公司，正在迅速推出各自的模型。在许多情况下，这些模型之间的差异微乎其微。然而，音频输出可能成为 Veo 3 的关键差异点，前提是谷歌能够兑现其承诺。尽管 AI 生成的声音工具并不新鲜，但据谷歌介绍，Veo 3 的独特之处在于它能够解读视频中的原始像素，并自动将生成的声音与视频片段同步。

由 Veo 3 生成的一个示例片段展示了其能力。TechCrunch 活动 TechCrunch Sessions: AI 邀请与会者为一天的专家讲座、工作坊和与 OpenAI、Anthropic 和 Cohere 等行业领袖的网络交流活动预留名额。在有限的时间内，门票仅需 292 元人民币，为对 AI 领域感兴趣的人士提供了宝贵的机会。该活动将在加利福尼亚州的伯克利举行，感兴趣的参与者可以立即注册以确保出席。

Veo 3 的开发很可能是 DeepMind 在“视频到音频”人工智能技术方面先前进展的结果。去年六月，DeepMind 宣布其致力于创造能够为视频生成配乐的 AI，通过使用声音、对话文本和视频片段的混合训练模型。虽然 DeepMind 尚未披露训练 Veo 3 的具体来源，但可以推测，谷歌拥有的 YouTube 内容可能被利用。DeepMind 之前曾表示，像 Veo 这样的模型可以在一些 YouTube 材料上进行训练。

为了解决对深度伪造的担忧，DeepMind 实施了其专有的水印技术 SynthID，以在 Veo 3 生成的帧中嵌入不可见的标记。尽管谷歌将 Veo 3 宣传为强大的创意工具，但许多艺术家表达了合理的担忧，因为这项技术对传统行业构成威胁。由代表好莱坞动画师和漫画家的动画工会委托的一项研究估计，到 2026 年，美国电影、电视和动画行业将有超过 100,000 个工作岗位可能受到 AI 进步的影响。此外，谷歌还为 Veo 2 引入了新功能，允许用户提供角色、场景和物体的图像，以提高一致性，并操控相机运动和剪辑尺寸。这些新功能预计将在接下来的几周内整合到谷歌的 Vertex AI API 平台中。