PaSa:基于强化学习的高效学术搜索代理

360影视 2025-01-29 06:00 2

摘要:该文介绍了一种名为PaSa的智能学术搜索代理,它基于大型语言模型,并能够自主进行一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献等,以获得复杂学术查询的全面准确结果。该文使用强化学习优化了PaSa,并使用合成数据集AutoScholarQuery进行了

该文介绍了一种名为PaSa的智能学术搜索代理,它基于大型语言模型,并能够自主进行一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献等,以获得复杂学术查询的全面准确结果。该文使用强化学习优化了PaSa,并使用合成数据集AutoScholarQuery进行了训练。此外,还开发了RealScholarQuery基准测试,用于评估PaSa在更现实场景下的性能。尽管PaSa是通过合成数据进行训练的,但它在RealScholarQuery上的表现显著优于现有的基线方法,包括Google、Google Scholar、Google与GPT-4对重述查询、ChatGPT(搜索启用的GPT-4o)、GPT-o1和PaSa-GPT-4o(PaSa实现为提示GPT-4o)。特别是,PaSa-7B超过了最佳基于Google的基线,即Google与GPT-4o,在召回率@20和召回率@50上分别提高了37.78%和39.90%。它还超过PaSa-GPT-4o,提高召回率30.36%,精确度提高4.25%。

本文提出的PaSa系统由两个强化学习(Reinforcement Learning)智能体组成:Crawler和Selector。Crawler负责根据用户查询生成多个搜索查询,并从文献库中检索相关文献,将其添加到待处理文献队列中。然后,Crawler进一步处理队列中的每篇文献,以识别值得深入探索的关键引用,并将任何新发现的相关文献附加到文献列表中。Selector则负责仔细审查文献列表中的每一篇文献,评估其是否满足用户的查询需求。

Crawler在RL术语中执行标记级别的马尔科夫决策过程(Markov Decision Process)。Crawler的操作空间A对应于LLM的词汇表,其中每个令牌代表一个操作。LLM充当策略模型。代理的状态由当前LLM上下文和文献队列定义。Crawler具有三个注册函数,如表3所示。当动作匹配一个函数名称时,相应的函数被调用并修改代理状态。

Selector是一个基于LLM的代理,接受两个输入:学者查询和研究论文(包括标题和摘要)。它生成两个输出:(1)一个单一的决策令牌d,表示论文是否满足查询;(2)一个包含m个令牌的支持理由r。支持理由有两个目的:通过联合训练模型生成决策和解释来提高决策准确性,并通过提供推理增强用户信任。

与传统的搜索引擎不同,PaSa系统利用强化学习技术设计了一个能够自动挖掘和探索关键引文的Crawler代理。此外,Selector代理还为Crawler提供了单令牌奖励模型,从而提高了训练效率。Selector还使用了辅助奖励模型来缓解由于AutoScholarQuery可能只包含子集的正确文献而导致的稀疏奖励问题。

PaSa系统解决了传统搜索引擎无法有效处理学术文献中存在的大量关键引文的问题。通过引入强化学习技术和两个代理,PaSa系统能够自动挖掘和探索关键引文,提高文献搜索结果的质量和准确性。同时,Selector代理还能提供支持决策的理由,增强了决策的可信度和用户信任感。

本文主要介绍了作者开发的PaSa智能学术搜索系统,并进行了多项对比实验来评估其性能和效果。具体来说,作者将PaSa与以下七个基准进行了比较:

Google:直接使用Google搜索引擎搜索查询。Google Scholar:直接在Google Scholar上提交查询。Google with GPT-4o:首先使用GPT-4o对学者查询进行改写,然后在Google上搜索改写后的查询。ChatGPT:将学者查询提交给ChatGPT,该模型是基于搜索增强的GPT-4o。GPT-4o1:让GPT-4o处理学者查询。PaSa-GPT-4o:在PaSa框架内使用GPT-4o,可以执行多次搜索、阅读论文和爬取引用网络。PaSa-7b:使用Qwen2.5-7b作为最终代理人的PaSa系统。

作者设计了不同的提示词用于所有基准测试,并且还收集了一个由200个查询-论文对组成的基准数据集,以评估Selector的效果。实验结果表明,PaSa-7b在AutoScholarQuery和RealScholarQuery两个测试集中均表现出色,相比于其他基准,PaSa-7b在召回率方面有显著提高。此外,实验还展示了PaSa系统的各个组件对于系统性能的影响,例如通过调整RL训练中的奖励系数可以有效地影响PaSa的行为。

该论文提出了一种名为PaSa的新型学术搜索代理,旨在提供全面准确的结果来解决复杂的学术查询问题。PaSa通过使用强化学习框架AGILE进行训练,并利用搜索工具或提取当前文章中的引用来自主收集相关论文。实验结果表明,PaSa在多个基准测试中表现优异,超越了Google等其他搜索系统。 此外,该论文还开发了两个高质量的数据集AutoScholarQuery和RealScholarQuery,用于训练和评估PaSa。这些数据集提供了细粒度的学术查询和相应的相关论文,使得研究人员可以更好地了解PaSa的表现并进一步改进其性能。

PaSa的主要创新在于其模仿人类行为的方式进行学术搜索。它由两个基于语言模型的代理组成:Crawler和Selector。Crawler可以自主地收集与用户查询相关的论文,而Selector则会仔细阅读每个论文以确定是否符合用户的查询要求。这种设计使得PaSa能够更准确地回答复杂的问题,并且可以在不断学习的过程中不断提高自己的性能。

此外,该论文还提出了一个针对论文搜索任务的独特PPO训练方法,以应对稀疏奖励和长轨迹等问题。这种方法可以帮助PaSa更好地适应不同的学术搜索场景,并提高其性能。

随着自然语言处理技术的不断发展,PaSa有望在未来实现更加智能化和高效化的学术搜索。例如,可以通过增加更多的特征来改善PaSa的回答质量,或者将其与其他NLP技术结合使用,如实体识别和关系抽取,以进一步扩展其功能范围。此外,还可以将PaSa应用于更广泛的领域,如商业情报和医疗研究等,以帮助人们更快地获取所需的信息。

来源:宁教授网络空间元宇宙

相关推荐