Nature:语言模型反馈的生成式人工智能优化

360影视 动漫周边 2025-03-27 06:18 3

摘要:参考文献:Yuksekgonul M, Bianchi F, Boen G, et al. Optimizing generative AI by backpropagating language model feedback[J]. Nature, 2025

参考文献:Yuksekgonul M, Bianchi F, Boen G, et al. Optimizing generative AI by backpropagating language model feedback[J]. Nature, 2025, 639: 609–616. 近年来,人工智能(AI)领域的突破越来越多地依赖于由多个大型语言模型(LLMs)和其他专业工具(如搜索引擎和模拟器)组成的复杂系统。这些系统目前大多是通过领域专家手工构建和调整的,而非自动优化,这限制了AI系统的快速进步。人工神经网络的发展曾面临类似的挑战,直到反向传播和自动微分技术的出现,使得优化变得简单易行。然而,对于新一代的生成式AI系统,由于它们通常涉及自然语言交互、黑箱LLMs或外部工具,使得传统的数值梯度反向传播难以实现。因此,开发一种能够自动优化这些复杂系统的框架是加速未来突破的关键。 文章提出了TextGrad框架,其通过反向传播LLMs生成的反馈来优化AI系统。TextGrad将每个AI系统转换为一个计算图,其中的组件通过复杂(不一定是可微的)函数交换丰富的非结构化变量,如文本、代码和图像。与神经网络通过数值梯度进行通信不同,TextGrad使用LLMs提供自然语言形式的反馈(称为文本梯度),描述如何修改每个变量以改进整个系统。这些文本梯度可以通过任意函数传播,例如LLMs的API调用、模拟器或外部数值求解器。TextGrad框架的核心是利用LLMs对系统中各个组件和子任务的推理能力,通过自然语言反馈来指导优化过程。 TextGrad在多个领域的应用中展示了其通用性和有效性,包括解决博士级别的科学问题、优化放射治疗计划、设计具有特定属性的分子、编程以及优化代理系统。在代码优化方面,TextGrad在LeetCode Hard数据集上的表现超过了现有的最先进方法,将完成率从26%提高到36%。在解决方案优化方面,TextGrad在多个科学问题解答基准测试中提高了性能,例如在MMLU的机器学习子集和大学物理子集上分别将准确率从85.7%提高到88.4%和从91.2%提高到95.1%。在提示优化方面,TextGrad通过优化提示来提高较弱模型(如gpt-3.5-turbo)的性能,使其在多个推理任务上的表现超过了现有的最先进方法。此外,TextGrad还在放射治疗计划优化中展示了其潜力,通过调整重要性权重,使得优化后的计划在保护健康器官方面优于人工优化计划。在优化复合AI系统方面,TextGrad通过迭代优化每个模块的输出,显著提高了系统的整体性能。 #人工智能 #大语言模型 #文献阅读 #科研 #学术

来源:小千说科技

相关推荐