DeepMind公开Mind Evolution研究,结合LLM提升自然语言问题求解性能

360影视 2025-01-24 17:50 2

摘要:DeepMind发布了一项名为Mind Evolution的技术,通过结合大型语言模型与演化式搜索方法,解决传统方法在自然语言规划与推理任务,所存在的效率与准确性瓶颈。该研究展示在不需将问题形式化(Formalize)为数学模型的前提下,运用语言模型直接处理复

DeepMind发布了一项名为Mind Evolution的技术,通过结合大型语言模型与演化式搜索方法,解决传统方法在自然语言规划与推理任务,所存在的效率与准确性瓶颈。该研究展示在不需将问题形式化(Formalize)为数学模型的前提下,运用语言模型直接处理复杂问题,并获得极佳的解决能力。

目前大型语言模型在处理复杂自然语言规划与推理任务存在限制,特别是在需要满足多重约束或隐含条件的场景中,例如旅行规划或行程安排。传统方法如单次生成(1-Pass)、最佳解搜索(Best-of-N)或逐步修正(Sequential Revision),虽能提供一定程度的解法,但往往受限于局部搜索的瓶颈,同时,许多问题很难形式化为明确的数学模型,进一步限制了传统求解器的应用范围。

Mind Evolution研究特别针对如旅行规划、行程安排及隐写术生成(Steganography)等高难度的自然语言任务进行测试。结果显示,Mind Evolution技术在TravelPlanner与Natural Plan基准测试的成功率在95%至100%间,远远超过传统的最佳解搜索与逐步修正策略。而且Mind Evolution在处理这些问题时,不需要通过专门的数学求解器或手动格式化问题描述,展现其应用的灵活性与实用性。

Mind Evolution的核心在于其类基因算法的演化式搜索策略,结合随机探索与深度优化,完成候选解的生成、重组与改进。该方法不仅能在短时间内大幅提升解决问题的准确性,还能应对自然语言描述中隐含的约束与需求。DeepMind研究团队强调,此技术的优势在于可借由一个全局的解答评估器对解法进行全面评估,不需要逐步检查每个中间推理步骤,进而大幅降低了运算成本。

在技术细节上,Mind Evolution采用了类基因算法的概念,包括候选方案的生成与改进、多次迭代的全局评估,以及模拟岛屿模型以维持候选方案的多样性。研究结果显示,结合语言模型的方法能有效改进候选方案,并通过模型间的互动提升整体解法品质。

此外,这篇研究还提出了一个新的基准测试任务StegPoet,用以检测在自然语言生成中隐藏资讯的能力。该任务要求生成一段故事或诗句,同时将消息隐藏于其中,经实验证明,Mind Evolution在此类高度创造性的任务中,也展现出色的性能。

语言模型复杂推理与自然语言规划的能力仍有巨大的进步空间,而Mind Evolution结合演化式搜索与语言模型的方式,不仅能克服局部最佳解的挑战,还能在不依赖问题形式化的前提下,大幅提升解决复杂自然语言任务的效率与成功率,为语言模型推理能力的提升提供新的研究方向。

来源:雪晴教育分享

相关推荐