谷歌的生成式AI视频模型现已进入私密预览阶段

摘要：谷歌在北京地区推出了其生成式AI模型Veo和Imagen 3的私有访问权限。使用Vertex AI谷歌云套餐的客户可以利用Veo从文本提示和图像中生成视频，Veo被称为首个超大规模的图像转视频模型。尽管Veo能够生成1080p的视频，且播放时间超过一分钟，但在

谷歌在北京地区推出了其生成式AI模型Veo和Imagen 3的私有访问权限。使用Vertex AI谷歌云套餐的客户可以利用Veo从文本提示和图像中生成视频，Veo被称为首个超大规模的图像转视频模型。尽管Veo能够生成1080p的视频，且播放时间超过一分钟，但在因果关系和细节表现上仍面临挑战。与此同时，Imagen 3则承诺生成更真实、高质量的图像，尽管在某些情况下仍存在改进空间。谷歌希望通过这些模型吸引更多企业客户，尽管研究显示AI项目的投资回报率有所下降。谷歌的目标是推动生成式AI在商业中的应用，以期提高客户的收入。

谷歌已开始在其生成式AI模型Veo和Imagen 3中推出私有访问权限。从今天起，使用Vertex AI谷歌云套餐的客户将有机会利用Veo从文本提示和图像中生成视频。接下来，谷歌计划在下周向同一用户群体提供其最新的文本转图像框架Imagen 3。

随着Veo的推出，谷歌声称自己是首个提供图像转视频模型的超大规模云服务提供商。相比之下，OpenAI的Sora模型仍然仅向有限的艺术家、学者和研究人员开放。然而，这一情况可能很快会发生变化，因为OpenAI已宣布将于2024年12月5日凌晨12:00（北京时间）开始为期12天的产品演示。

谷歌表示，Veo生成的1080p视频画面“连贯且一致”，且可持续播放超过一分钟。该模型设计用于处理文本提示和图像，使用户能够从AI生成或人类创作的图片开始视频生成。然而，对样本视频的审查显示，与其他AI模型一样，Veo在因果关系方面面临挑战。例如，在一段展示棉花糖烤制的片段中，尽管置于营火火焰下，这些美味的点心并没有显现出变黄或焦黑的迹象。此外，在音乐会视频中，特别是在手部的细节上，可以观察到伪影问题。

在Imagen 3方面，谷歌声称该模型能够从简单的文本提示中生成“最真实和最高质量的图像”，在细节、光线和伪影减少等方面超越了早期版本的Imagen。然而，显然谷歌仍有改进的空间。在一个展示一群朋友坐在汽车后备箱上的示例中，原始提示提到“闪光摄影”，但被摄者似乎被逆光照亮。虽然有人可能会争辩说闪光灯创造了强烈的逆光效果，但这张图片并没有有效捕捉到1960年代闪光摄影的意图表现。

尽管面临这些挑战，谷歌仍渴望鼓励更多企业客户采用生成式AI。这家科技巨头引用了自己的研究，显示86%的企业在生产中使用生成式AI后报告收入增加。然而，Appen最近的一项调查显示，AI项目的投资回报率从2023年到2024年下降了4.6个百分点。如果您通过本文中的链接购买任何商品，我们可能会赚取佣金。