新型人工智能工具生成高质量图像的速度比现有顶尖方法更快

360影视 欧美动漫 2025-04-11 18:18 1

摘要:2025年3月20日,《每日科学》发布《新型人工智能工具生成高质量图像的速度比现有顶尖方法更快》(New AI tool generates high-quality images faster than state-of-the-art approaches

2025年3月20日,《每日科学》发布《新型人工智能工具生成高质量图像的速度比现有顶尖方法更快》(New AI tool generates high-quality images faster than state-of-the-art approaches),文章探讨了新型人工智能图像生成工具的原理、优势和潜力应用。启元洞见编译文章主要内容,旨在为读者了解新型人工智能图像生成工具提供参考。

能够快速生成高质量图像,对于构建逼真的模拟环境至关重要,这些环境可用于训练自动驾驶汽车以避开不可预知的危险,从而使其在真实道路上更安全。

然而,当前越来越多被用于生成此类图像的生成式人工智能技术也存在一些缺陷。一种流行的模型类型——扩散模型(diffusion model)——能够生成极为逼真的图像,但速度较慢且计算资源消耗巨大,不适用于许多实际应用。另一方面,驱动像ChatGPT这样的语言大模型的自回归模型(autoregressive model)虽然速度更快,但生成的图像质量较差,常常充满错误。

对此,来自麻省理工学院(MIT)和英伟达(NVIDIA)的研究人员开发出了一种全新的方法,将两种模型的优点结合起来。他们的混合图像生成工具使用自回归模型快速勾勒出整体图像轮廓,然后再通过一个小型扩散模型对图像细节进行精细化处理。

他们的工具被称为HART(Hybrid Autoregressive Transformer,混合自回归变换器),能够生成与最先进的扩散模型相媲美甚至超越的图像质量,同时速度提升了约九倍。

这一生成过程比传统扩散模型消耗更少的计算资源,使得HART能够在普通笔记本电脑或智能手机上本地运行。用户只需在HART的界面中输入一个自然语言提示词,即可生成图像。

HART有望在多个领域得到广泛应用,例如帮助研究人员训练机器人完成复杂的现实任务,或帮助设计师创作出令人惊艳的视频游戏场景。

“如果你在画一幅风景画,直接一次性涂满整个画布,可能不会太好看。但如果你先画出整体构图,再用更细的笔触去完善细节,效果可能会好很多。HART的基本理念就是如此。”该论文的共同一作、MIT博士生唐昊天(Haotian Tang)这样说道。

论文的另一位共同一作是清华大学本科生吴业成(Yecheng Wu);通讯作者是麻省理工学院电气工程与计算机科学系副教授、MIT-IBM Watson AI Lab成员、英伟达杰出科学家韩松(Song Han);参与研究的还有来自MIT、清华大学以及英伟达的其他研究人员。该研究成果将于国际学习表征大会(ICLR)上进行展示。

一、兼得两种优势

目前流行的扩散模型,如Stable Diffusion和DALL·E,以生成细节丰富的图像而闻名。这类模型通过迭代过程生成图像:在每一步中预测图像像素中的一定程度的随机噪声,然后去除这些噪声,并重复“预测—去噪”的过程多次,直到最终生成完全无噪声的新图像。

Stable Diffusion宣传图(图源网络)

DALL·E宣传图(图源网络)

由于扩散模型在每一步都对图像中的所有像素进行去噪处理,而整个过程可能需要30步甚至更多,因此其运算过程非常缓慢且计算开销巨大。但正因为模型有多次机会修正细节上的错误,最终生成的图像质量极高。

自回归模型则常用于文本预测,它们也可以通过依次预测图像中的图块(patch),即每次生成少量像素的方式来生成图像。这类模型无法回头修正之前的错误,但由于预测过程是线性的,生成速度远快于扩散模型。

自回归模型使用称为“token”的表示形式来进行预测。模型通过一个自动编码器(autoencoder)将原始图像像素压缩为离散token,并通过这些token来重建图像。这种方式提高了生成速度,但在压缩过程中会丢失部分信息,导致最终生成的图像容易出现错误。

针对这个问题,研究人员开发了HART,采用一种混合方法:首先使用自回归模型预测压缩后的离散图像token,然后引入一个小型扩散模型来预测残差token。残差token弥补了离散token在信息压缩中遗失的部分,能够捕捉那些未被还原的图像细节。

“我们在图像重建质量方面获得了显著提升。残差token学会了高频细节,比如物体的边缘、人物的头发、眼睛或嘴巴等,这些部分是离散token最容易出错的地方。”唐昊天解释道。

由于扩散模型只需要补充自回归模型未捕捉到的细节,因此它只需执行8步操作即可完成任务,而不像传统扩散模型那样需要30步或更多来生成整张图像。这种轻量化的扩散模型带来的开销极小,使得HART在保留自回归模型速度优势的同时,显著提升了图像细节的生成能力。

“扩散模型的任务变得更简单了,这就带来了更高的效率。”他补充道。

二、超越更大规模模型的性能

在开发HART的过程中,研究人员面临着如何有效整合扩散模型以增强自回归模型的挑战。他们发现,如果在自回归过程的早期就引入扩散模型,反而会导致错误的积累。而最终采用的设计方案是:仅在最后一步使用扩散模型来预测残差token,这种方法显著提升了图像生成的质量。

该方法结合了一个拥有7亿参数的自回归Transformer模型和一个轻量级、仅有3700万参数的扩散模型,其生成的图像质量可媲美使用20亿参数的传统扩散模型,但速度却快了约9倍,计算资源消耗也减少了约31%,相较于最先进的模型大幅优化。

此外,由于HART使用自回归模型完成大部分图像生成任务——这类模型正是大语言模型的核心——因此更容易与新一代统一视觉—语言生成模型进行集成。未来,人们甚至可以通过与此类模型交互,例如,要求它展示如何组装一件家具的中间步骤等视觉流程。

唐昊天表示,“大语言模型是各种模型之间良好的接口,比如多模态模型和具备推理能力的模型。这是一种将智能推向新前沿的方式。一个高效的图像生成模型将释放出大量新的可能性。”

展望未来,研究团队希望基于HART架构进一步开发“视觉—语言”模型。由于HART具备良好的可扩展性和跨模态泛化能力,他们还计划将其应用于视频生成和音频预测等任务中。

转自丨启元洞见

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

_er

来源:全球技术地图

相关推荐