摘要:你有没有遇到过这种情况:AI生成的图像看起来评分很高,但人物五官奇怪、画面不真实,甚至颜色搭配也让人难以接受?
你有没有遇到过这种情况:AI生成的图像看起来评分很高,但人物五官奇怪、画面不真实,甚至颜色搭配也让人难以接受?
这不是你眼光有问题,而是AI画图模型本身在“投机取巧”。
很多AI绘图模型为了追求高分,反而让画面失去了真实感,它们不是在取悦你的审美,而是在讨好评分系统,这背后问题出在“奖励机制”上。
腾讯混元团队在9月公开的一项研究,试图解决这个根本问题。
他们提出了两个新方法:Direct-Align 和 SRPO(语义相对偏好优化),通过重新设计AI绘图模型的奖励机制,从底层改变图像生成的逻辑。
研究显示这一方法在多个真实感和美学质量评估中,有3倍以上的提升。
AI绘图依赖的扩散模型,基本原理是从一张全噪声图开始,经过上百步“去噪”,逐步生成清晰图像。
为了让生成结果更贴近人类审美,研究者会引入“奖励模型”给图像打分,类似于“美感评分器”。
所以模型为了拿高分,常常会去“套题”。
比如某些评分模型偏好红色调或紫色调,那模型就大量生成这种颜色的图,哪怕不符合画面的实际需求。
这种情况被研究者称为“奖励作弊”——表面上看图像得分高了,甚至视觉上也“抓人眼球”,但缺乏真实质感,细节粗糙,很难真正打动人。
腾讯混元团队发现,这样的问题跟“奖励优化的方式”有关。大多数现有方法,只在图像生成的最后几步对奖励进行优化,因为早期图像还在高噪声状态,难以评估质量。
但这也导致模型只能在结果出来之后“临时抱佛脚”,缺乏全流程的控制。
为了解决这个痛点,腾讯混元提出了Direct-Align方法。
它的核心逻辑是:将扩散过程看作是目标图像和噪声的某种混合状态。团队通过设定一个噪声先验,让模型可以在任意时间步“还原”原始图像。这种方式打破了传统“只能后期优化”的限制。
实验表明哪怕在扩散初期只还原了5%的图像内容,模型也能获取到图像的大致结构。这代表AI从一开始就可以对图像质量进行优化,而不是等到最后再去拼凑分数。
这一方法大大降低了梯度爆炸的风险,也减少了奖励作弊的发生概率。过去模型只能在最后几步“补救”,现在可以在整个流程中调整方向。
除了优化时间流程,腾讯混元还在“奖励的内容”上做了改进。
传统奖励模型是固定的,无论你要生成一幅写实风格的图,还是赛博朋克风格的图,它都用同一套标准打分。显然,这种方式不够灵活,也无法适应不同用户的审美需求。
为此研究团队提出了语义相对偏好优化(SRPO)。SRPO的关键思想是:让奖励信号具备“语义控制能力”。
也就是说模型不再追求一个固定的高分,而是根据用户希望的风格,动态调整图像生成方向。
既不需要额外数据,也不需要重新训练奖励模型。只要改一下提示词,模型就能在线快速适配。
这些新方法的效果是通过严格实验验证的。
研究团队在FLUX.1-dev模型上进行了完整测试,使用了HPDv2基准测试中的3200个提示词,并结合多个自动评分系统(如Aesthetic Score v2.5、PickScore、ImageReward)以及人工标注进行评估。
他们组织了10名专业标注人员和3位图像领域专家,对500个提示词生成的图像进行了实际评分,结果非常明显:
图像的真实感优秀率从8.2%提升至38.9%图像的美学质量从9.8%提升至40.5%综合偏好度也达到了29.4%的优秀率而整个SRPO训练只用了10分钟,在32块H20 GPU上完成。这一性能甚至超过了当时开源社区更新的 FLUX.1.Krea 模型。
你可能会问,这是不是就是换了个评分方式?其实不只是这样。
SRPO 和 Direct-Align 的组合,重塑的是AI绘图优化的路径——从“结果导向”变成了“过程导向”,从“固定标准”变成了“语义调节”。
在传统方法中,AI像是一个为了高分而拼命“考试”的学生,结果答题答得越来越不像人话。而新的机制下,AI开始理解“为什么这样画更好”,而不是单纯为了分数妥协。
所以,这其实是一种范式上的转变,而非性能调优。
在AI绘图进入大众创作工具的今天,如何让它听得懂人话、画得出人心,这或许才是技术进步真正的方向。
腾讯混元的这次尝试,为这个方向提供了一个值得参考的路径。
来源:时光故事会