GPT-4o图像生成的“核燃料”找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画

360影视 日韩动漫 2025-05-06 15:51 2

摘要:当深度学习兴起时,主流观点是:我们将尽可能用端到端学习取代手工构建的特征。联合学习所有处理阶段将使这些阶段能够相互适应和协作,从而最大限度地提高性能,同时从工程角度简化流程。这或多或少也正是计算机视觉和语音处理领域最终发生的事情。从这个角度来看,颇具讽刺意味的

选自Sander Dieleman博客机器之心编译编辑:刘欣上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。而在这股浪潮背后,潜在空间(Latent Space)作为生成模型的核心驱动力,点燃了图像与视频创作的无限想象。知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章,探讨了生成模型(如图像、音频和视频生成模型)如何通过利用潜在空间来提高生成效率和质量。当深度学习兴起时,主流观点是:我们将尽可能用端到端学习取代手工构建的特征。联合学习所有处理阶段将使这些阶段能够相互适应和协作,从而最大限度地提高性能,同时从工程角度简化流程。这或多或少也正是计算机视觉和语音处理领域最终发生的事情。从这个角度来看,颇具讽刺意味的是,当今感知信号的主流生成建模范式是两阶段方法。虽然两个阶段都倾向于学习,但并非完全端到端!如今产品中部署的文本转图像、文本转视频和文本转音频模型大多使用中间潜在表征。值得思考的是,这种现状是暂时的,还是会持续下去?毕竟,两阶段训练确实引入了相当多的复杂性,除了更加优雅之外,端到端学习还可以帮助确保系统的所有部分都与单一的总体目标完美地保持一致。如上所述,输入空间的迭代细化速度慢且成本高昂,我认为这种情况可能会持续一段时间 —— 尤其是在我们不断提升生成信号的质量、分辨率和 / 或长度的情况下。我们不太可能放弃潜在层在训练效率和采样延迟方面的优势,目前尚无可行的替代方案被证明能够大规模应用。这是一个颇具争议的观点,因为一些研究人员似乎认为是时候转向端到端方法了。我个人认为现在还为时过早。那么,我们何时才能准备好回归单阶段生成模型呢?像简单扩散、Ambient Space Flow、Transformers 和 PixelFlow 这样的方法已经证明:即使在相对较高的分辨率下,这种方法也能很好地发挥作用,只是目前还不够划算。但硬件正以惊人的速度不断改进和提升,因此我推测我们最终会达到一个临界点:即相对低效的输入空间模型在经济上优于工程复杂性日益增加的潜在空间模型。至于何时实现,则取决于具体模态、硬件改进的速度以及研究的进展,因此我不会做出具体的预测。过去,我们需要潜在向量来确保生成模型专注于学习感知相关的信号内容,同时忽略视觉上不显著的熵。回想一下,输入空间中的似然损失在这方面尤其糟糕,而切换到在潜在空间中测量似然值可以显著改善基于似然模型的结果。可以说,这种情况已不再存在,因为我们已经找到了如何在感知上重新加权自回归和扩散模型的似然损失函数,从而消除了扩展的一个重要障碍。尽管如此,潜在空间模型的计算效率优势仍然一如既往地重要。第三种替代方案,我目前为止只是简要提到过,是分辨率级联方法。这种方法不需要表征学习,但仍然将生成模型问题分解为多个阶段。一些早期的商业模型曾使用这种方法,但它似乎已经不再受欢迎了。我认为这是因为不同阶段之间的分工不够完善 —— 上采样模型必须完成太多的工作,这使得它们更容易在各个阶段积累错误。© THE END转载请联系本公众号获得授权原标题:《GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画》

来源:晗蒙讲科技

相关推荐