谷歌的生成式AI视频模型现已进入私密预览阶段

摘要:谷歌在北京地区推出了其生成式AI模型Veo和Imagen 3的私有访问权限。使用Vertex AI谷歌云套餐的客户可以利用Veo从文本提示和图像中生成视频,Veo被称为首个超大规模的图像转视频模型。尽管Veo能够生成1080p的视频,且播放时间超过一分钟,但在

谷歌在北京地区推出了其生成式AI模型Veo和Imagen 3的私有访问权限。使用Vertex AI谷歌云套餐的客户可以利用Veo从文本提示和图像中生成视频,Veo被称为首个超大规模的图像转视频模型。尽管Veo能够生成1080p的视频,且播放时间超过一分钟,但在因果关系和细节表现上仍面临挑战。与此同时,Imagen 3则承诺生成更真实、高质量的图像,尽管在某些情况下仍存在改进空间。谷歌希望通过这些模型吸引更多企业客户,尽管研究显示AI项目的投资回报率有所下降。谷歌的目标是推动生成式AI在商业中的应用,以期提高客户的收入。

谷歌已开始在其生成式AI模型Veo和Imagen 3中推出私有访问权限。从今天起,使用Vertex AI谷歌云套餐的客户将有机会利用Veo从文本提示和图像中生成视频。接下来,谷歌计划在下周向同一用户群体提供其最新的文本转图像框架Imagen 3。

随着Veo的推出,谷歌声称自己是首个提供图像转视频模型的超大规模云服务提供商。相比之下,OpenAI的Sora模型仍然仅向有限的艺术家、学者和研究人员开放。然而,这一情况可能很快会发生变化,因为OpenAI已宣布将于2024年12月5日凌晨12:00(北京时间)开始为期12天的产品演示。

谷歌表示,Veo生成的1080p视频画面“连贯且一致”,且可持续播放超过一分钟。该模型设计用于处理文本提示和图像,使用户能够从AI生成或人类创作的图片开始视频生成。然而,对样本视频的审查显示,与其他AI模型一样,Veo在因果关系方面面临挑战。例如,在一段展示棉花糖烤制的片段中,尽管置于营火火焰下,这些美味的点心并没有显现出变黄或焦黑的迹象。此外,在音乐会视频中,特别是在手部的细节上,可以观察到伪影问题。

在Imagen 3方面,谷歌声称该模型能够从简单的文本提示中生成“最真实和最高质量的图像”,在细节、光线和伪影减少等方面超越了早期版本的Imagen。然而,显然谷歌仍有改进的空间。在一个展示一群朋友坐在汽车后备箱上的示例中,原始提示提到“闪光摄影”,但被摄者似乎被逆光照亮。虽然有人可能会争辩说闪光灯创造了强烈的逆光效果,但这张图片并没有有效捕捉到1960年代闪光摄影的意图表现。

尽管面临这些挑战,谷歌仍渴望鼓励更多企业客户采用生成式AI。这家科技巨头引用了自己的研究,显示86%的企业在生产中使用生成式AI后报告收入增加。然而,Appen最近的一项调查显示,AI项目的投资回报率从2023年到2024年下降了4.6个百分点。如果您通过本文中的链接购买任何商品,我们可能会赚取佣金。

来源:老孙科技前沿一点号

相关推荐