用光子计算革新AIGC:浙大校友引光入AI模型,图像合成免耗算力

360影视 欧美动漫 2025-08-28 19:07 1

摘要:此前,他曾将光引入国产手机;而现在,他将光引入了 AIGC。当陈世锜在浙江大学读博时,曾和所在团队研发多个计算光学成果并被用于国产手机;如今,他在美国加州大学洛杉矶分校从事博士后研究。在美期间,他结合自己的光学积累,提出一种受扩散模型启发的光学生成模型,相关论

此前,他曾将光引入国产手机;而现在,他将光引入了 AIGC。当陈世锜在浙江大学读博时,曾和所在团队研发多个计算光学成果并被用于国产手机;如今,他在美国加州大学洛杉矶分校从事博士后研究。在美期间,他结合自己的光学积累,提出一种受扩散模型启发的光学生成模型,相关论文于当地时间 8 月 27 日发表于 Nature,论文题目只有三个英文单词——Optical generative models。

图 | 陈世锜(来源:https://tangeego.github.io/)

这款光学生成模型的亮点在于,除了照明功率消耗以及通过浅层编码器生成随机种子的过程外,模型在图像合成过程中不消耗计算资源。此外,无需改变架构或物理硬件,只需将衍射解码器重构至新的优化状态,即可实现针对不同数据分布的光学生成。光学生成模型的这种多功能性,或能让边缘计算、增强现实、虚拟现实,以及各类娱乐应用获得收益。

该模型可通过光学方式合成符合目标数据分布的单色或彩色图像,即针对特定数据分布,以光学手段生成此前从未出现过的图像。模型的设计灵感源自扩散模型,其核心思路是利用浅层数字编码器,将随机的二维高斯噪声图案快速转化为代表光学生成种子的二维相位结构。

具体来说,在这款模型中,一个浅层快速数字编码器首先将随机噪声映射为相位图案,这些相位图案可作为目标数据分布的光学生成种子。随后,一个经过联合训练的、基于自由空间的可重构解码器通过全光学方式处理这些生成种子,从而生成符合目标数据分布的全新图像。

通过此,陈世锜等人实现了多种内容的光学生成:依据 MNIST 数据集、Fashion-MNIST 数据、Butterflies-100 数据集、Celeb-A 数据集以及梵高画作与素描的数据分布,他们分别生成了手写数字、时尚产品、蝴蝶、人脸及艺术品的单色与彩色图像,整体性能可与基于数字神经网络的生成模型相媲美。为了通过实验验证光学生成模型,他们利用可见光生成了手写数字与时尚产品的图像。此外,其还通过单色与多波长照明生成了梵高风格的艺术品。

据介绍,这款模型具有高度灵活性:针对不同数据分布的各类生成模型,可共享同一光学架构,仅需为每项任务配备一个优化后的固定衍射解码器。通过对随机噪声进行相位编码得到光学生成种子,即可利用这些种子合成数量庞大的图像。因此,若要将目标数据分布从一项生成任务切换至另一项,只需更换光学生成种子及对应的可重构解码器表面,无需对光学装置本身进行调整。

这让本次光学生成模型有望为开展节能且可扩展的推理任务奠定基础,并能进一步地挖掘光学与光子学在 AIGC 领域的应用潜力。当前,随着生成式 AI 技术的应用,模型对于算力和内存的需求正在急剧增加,推理时间也随之延长。与此同时,生成式 AI 模型的可扩展性及碳足迹问题日益引发关注。尽管已有多种新兴方法致力于减小模型规模、降低功耗并提升推理速度,但本次模型是一个兼具高能效与高可扩展性的生成式 AI 模型,故能在一定程度上缓解这一问题。

图 | 相关论文(来源:Nature)

光学生成模型与数字扩散模型生成的图像高度相似

为利用实验来验证本次光学生成模型,研究团队搭建了一套工作于可见光谱的自由空间硬件系统。实验结果证实,经过训练的光学生成模型能够成功捕捉到每个目标数据分布背后隐含的特征及关联。

详细来说,在初始实验中,研究团队针对手写数字和时尚产品图像的生成分别训练了两个不同模型,这两个模型分别遵循 MNIST 数据集和 Fashion-MNIST 数据集的数据分布。下图 c 展示了这两个模型的实验结果:在 MNIST 数据集上,模型取得的弗雷歇初始距离(FID,Fréchet inception Distance)得分为 131.08;在 Fashion-MNIST 数据集上,模型取得的 FID 得分为 180.57。模型能够成功生成符合这两种目标数据分布的图像,这凸显了所设计系统的多功能性,进一步验证了光学生成模型的可行性。需要说明的是,整体推理时间受到空间光调制器加载时间的限制,这时使用速度更快的相位光调制器或帧率超过 1 千赫兹(kHz)的空间光调制器,可以将这一加载时间降至最低。

图 | 光学生成模型的示意图(来源:Nature)

为了进一步探究快照式光学生成模型的潜在空间,研究团队还开展了实验,探究了随机噪声输入与生成图像之间的关系。

与此同时,他们还利用受限光学装置,在有限相位编码空间和有限解码器位深条件下,对快照式光学图像生成进行了实验评估。具体来说,其利用上图所示的同一装置,生成了更高分辨率的梵高风格艺术品图像。通过将数字编码器与联合训练的衍射解码器配对,验证了梵高风格艺术品快照式单色图像的生成。对比结果显示,在采用相同数字编码器架构的情况下,衍射解码器的性能优于基于自由空间的图像解码。

值得注意的是,在某些情况下,基于自由空间的解码会完全失效,其“对比语言-图像预训练(CLIP,Contrastive Language–Image Pre-training Score)”得分低于 10–15;而衍射解码器则能实现稳定的图像生成,且输出图像质量显著更优。和预期一样的是,当研究团队增大空间光调制器到解码器的距离以匹配实验条件时,观察到图像分辨率因数值孔径相关因素出现轻微下降。但是,与基于自由空间的解码相比,基于衍射解码器的方法仍能保持稳定的图像生成。而尽管采用相同的数字编码器架构,基于自由空间的解码在多种情况下仍无法实现图像生成。

通过进一步增加数字编码器的参数数量,研究团队提升了快照式生成的梵高风格光学生成图像的分辨率与质量。下图展示了研究团队使用含 5.8 亿参数的数字编码器生成更高分辨率单色及彩色图像的实验结果。

图 | 生成单色梵高风格艺术作品的数值与实验结果(来源:Nature)

据介绍,梵高风格艺术品的单色图像是在 520 纳米波长光照下生成的,而彩色图像则针对蓝、绿、红三个通道,分别采用了 450 纳米、520 纳米、638 纳米的连续波长光照。在下图中,左侧三列结果显示:光学生成模型单次生成的快照图像,与数字扩散模型(即含 10.7 亿可训练参数、单幅图像需 1000 步推理的教师模型)生成的图像高度相似,这表明本次模型的图像生成过程与教师扩散模型具有一致性。相反的是,上图橙色方框内突出显示的右侧三列结果,则展现了光学模型生成多样化图像的能力,这些图像与教师数字扩散模型生成的图像存在差异,体现了其输出端的创造性多样性。

在生成彩色梵高风格艺术品时,研究人员先是生成各波长通道的相位编码生成种子图案,再将这些图案依次加载到空间光调制器上。在对应波长的光照下,多色图像通过固定衍射解码器生成,并以数字方式进行融合。换言之,所有图像生成过程中,所有照明波长共用同一解码器状态。下图展示了彩色梵高风格艺术品的生成结果,其中既包含与教师数字扩散模型(含 10.7 亿个可训练参数,生成单幅图像需 1000 步推理)输出匹配的艺术作品实例,也包含与之存在差异的实例。尽管观察到轻微的色差,但生成的高分辨率彩色图像仍保持了较高质量。

图 | 用于生成彩色梵高风格艺术品的数值模拟与实验结果(来源:Nature)

基于本次研究提出的方法,还可以设计空间和光谱多路复用光学生成模型,从而在不同空间与光谱通道中并行生成多幅独立图像。与此同时,基于光学生成模型在能效、可扩展性及灵活性方面的优势,将能为各类 AI 相关应用例如 AI 生成内容、图像与视频处理及合成等提供极具潜力的解决方案。

光学和 AI 的奇妙结合

如前所述,陈世锜目前是美国加州大学洛杉矶分校的博士后研究员。2022 年,当他还在浙江大学读博时,其和当时所在团队首次在大规模制造的系统中全部实现了接近衍射极限的像质提升,成果在国内顶级公司的旗舰产品中落地应用,并在多款手机上得到广泛应用,相关论文发表于 IEEE Transactions on Pattern Analysis and Machine Intelligence 等期刊。

浙江大学官网显示,陈世锜读博时所在的冯华君教授、徐之海教授课题组自 2014 年起长期与国内手机公司合作开展了多项智能手机图像处理技术研究。如今,陈世锜在博士后期间又发表了这样一篇应用性极强的 Nature 论文。未来,他将选择进入学界还是业界,或许不久即将揭晓答案。

参考资料:

Chen, S., Li, Y., Wang, Y. et al. Optical generative models. Nature 644, 903–911 (2025). https://doi.org/10.1038/s41586-025-09446-5

来源:不秃头程序员

相关推荐