Nature | 新方法通用强化生成式AI

360影视 动漫周边 2025-03-21 08:04 5

摘要:一项近日发表在Nature的工作借鉴深度学习领域经典的“反向传播(backpropagation)”算法[1],用大语言模型可迭代地评估并反馈生成式AI系统从prompt到产出等各组分的不足之处与建议,进而通用高效地优化生成式AI[2], [3]。

一项近日发表在Nature的工作借鉴深度学习领域经典的“反向传播(backpropagation)”算法[1],用大语言模型可迭代地评估并反馈生成式AI系统从prompt到产出等各组分的不足之处与建议,进而通用高效地优化生成式AI[2], [3]。

研究人员称该方法为- TextGrad,并通过药物分子设计、编程、放疗方案设计以及复合AI系统强化等方面展示了该方法的效果[3]。

TextGrad利用 “反向传播” 原理,使用大语言模型的反馈,来实现生成式AI优化[3]。

TextGrad优化分子,用于药物设计[3]。

TextGrad优化放疗方案[3]。

TextGrad优化复合AI系统,更智能准确地应对复杂问题[3]。

该项工作的通讯作者是斯坦福大学的James Zou和Mert Yuksekgonul等研究人员;2025年3月19日在线发表在Nature[3]。

Comment(s):

朴素的原理带来通用的优化。

该方法关键应该还是在“评估”环节,适用评估规则比较明确的场景;在某些评估规则比较模糊的场景可能会加重幻觉等问题。

Backpropagation环节进一步引入人的干预有望让该方法更灵活高效。

参考文献:

[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, no. 6088, pp. 533–536, 1986, doi: 10.1038/323533a0.

[2] O. Khattab et al., “DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines,” 12th Int. Conf. Learn. Represent. ICLR 2024, pp. 1–32, Oct. 2023, [Online]. Available: http://arxiv.org/abs/2310.03714

[3] M. Yuksekgonul et al., “Optimizing generative AI by backpropagating language model feedback,” Nature, vol. 639, no. 8055, pp. 609–616, 2025, doi: 10.1038/s41586-025-08661-4.

原文链接:

来源:科技黑匣子

相关推荐