摘要:你有没有过这种“电量焦虑”?用手机AI画张插画,后台一跑电掉得比刷视频还快,戴AR眼镜看会儿虚拟场景,没半小时就得找充电宝。
文|泡芙
编辑|江娱迟
本文内容均是根据权威资料,结合个人观点撰写的原创内容,文中标注文献来源及截图,请知悉。
你有没有过这种“电量焦虑”?用手机AI画张插画,后台一跑电掉得比刷视频还快,戴AR眼镜看会儿虚拟场景,没半小时就得找充电宝。
但最近浙大校友团队的研究,直接给“AI图像耗电”来了个大颠覆,他们靠激光和液晶屏幕搞出的光学生成模型,几乎不费电就能生成高清图,还把成果发上了Nature!
那么,这“靠光画图”的操作到底咋实现?为啥能做到“省电王者”?
“0耗电”很惊艳,但这些疑问咱们得聊透,浙大校友团队把光学生成图像研究发上Nature,说这技术几乎不耗电还能出高清图,听着特别颠覆。
但咱们别光看热闹,不少人心里可能藏着疑问,咱们把这些疑问掰扯清楚,反而能更懂这技术的真价值。
或许有人会挠挠头,几乎0耗电是不是有点夸张?毕竟数字编码器、空间光调制器这些设备,电子玩意儿哪有不耗电的?
难道为了上顶级期刊故意“缩水”能耗?其实不是这么回事。
咱们得先搞明白“电都耗在哪儿”,传统AI生成图像,靠的是计算机几百万次运算,就像让几百个计算器从早算到晚,电全砸在“算”上。
但这个光学模型,核心的“加工步骤”是让光来干的,激光穿过SLM,把噪声变成图像,光自己传播根本不费电。
至于数字编码器,也就负责生成个“初始噪声”,并且仅需消耗极少能量,这就像按一下计算器开机键的耗电,跟传统模型的“连轴转”比,确实能算“几乎0耗电”。
它不是绝对不耗电,而是把能耗从“最费电的核心计算”转移到了“微耗电的光学操作”,这个对比才是关键。
有人可能会追问:“离实用还有距离”这话也太模糊了,到底卡在哪了?是技术原理有漏洞,还是造不出小尺寸的设备?
在生成彩色梵高画作时,“观察到轻微的色差”,咱们用手机拍照都怕偏色,更别说VR/AR、可穿戴设备了,色彩不准肯定是个大问题。
还有硬件本身,SLM是液晶屏幕,现在实验用的估计是实验室里的大尺寸设备,要装到手机、AI眼镜里,得把SLM做小、做便宜,还得保证激光和SLM配合稳定,这不是“能不能成”的问题,是“怎么做得更精细”的工程活。
并且“光学种子是预先计算好的”,要是想实时改图像风格,是不是得重新算种子?
还有人可能会拿它跟传统AI比,传统模型能实时改风格、加细节,这个光学模型能做到吗?
比如现在用AI画图,想把“梵高风”改成“莫奈风”,点一下就调了,这光学模型难道要拆了重装?
其实两者的“擅长领域”不一样,传统AI灵活是灵活,但在手机、AR眼镜这些小设备上,一来耗电快,二来容易卡,你总不能戴个AI眼镜,半小时就没电了吧?
而光学模型的优势刚好是“快+省”,光的传播速度比电子运算快,生成图像几乎不费电,这正好补上了移动设备的短板。
至于灵活调整,现在是“预先算种子”,未来要是把SLM改成能实时改相位的,说不定也能快速调风格。
它不是要替代传统AI,而是在“低耗、高速”的场景里补位,比如VR眼镜要持续生成画面,用它就比传统模型撑得久。
很多人都觉得不靠谱,文章中并没说比传统模型高还是低,是不是故意藏了数据?其实不用太担心,Nature的审稿有多严大家都知道,实验数据得反复验证、同行审核才能过。
而且文中不光测了简单的手写数字,还测了高分辨率梵高画作,连单色、彩色都试了,实验设计挺全面的。
至于评分,不同数据集的“合格线”不一样,MNIST是简单的手写数字,传统模型分数也不会太低,就拿他们说的效果与传统图像生成器相当,意思是质量没掉队,但能耗降下来了,这才是重点。
它不是要在质量上碾压传统AI,而是在质量不丢的前提下,解决了“耗电”这个大难题。
这个技术的价值不在于“完美”,而在于“破局”,之前大家都在想怎么让电子AI更省电,而这个团队换了个思路,让“光”来做核心计算。
当然,它现在还有色差、小型化这些小问题,但就像最早的手机又大又重,没人想到后来能揣兜里,只要方向对,慢慢优化,说不定以后咱们的手机、AR眼镜,真能靠“光”生成图像,用一天都不用充电。
这大概就是科研的魅力,先有个“几乎0耗电”的惊喜,再跟着疑问一点点完善,最后变成能改变生活的东西。
来源:江语迟