InfoDeepSeek 有效地弥补了现有静态评估方法的不足,为智能体信息搜寻领域的研究提供了重要评测标准。摘要:检索增强生成(RAG)通过引入外部信息来提升大型语言模型(LLMs)回复的准确度,而Agentic RAG则更进一步将LLM智能体引入信息搜寻过程,实现灵活和鲁棒的信息获取。然而,现有RAG基准大多局限于静态的、小规模的文本库和简单的查询,难以激发智能体的复杂
作者丨西云佳 林江浩
检索增强生成(RAG)通过引入外部信息来提升大型语言模型(LLMs)回复的准确度,而Agentic RAG则更进一步将LLM智能体引入信息搜寻过程,实现灵活和鲁棒的信息获取。然而,现有RAG基准大多局限于静态的、小规模的文本库和简单的查询,难以激发智能体的复杂行为;其评估方式也依赖于预定义的“正确文档集”,不适用于真实网络环境,因此难以评估智能体信息搜寻的质量。
为解决这些痛点,上海交通大学与华为诺亚方舟实验室的研究者们联合推出了 InfoDeepSeek,首个评估真实动态网络环境下智能体信息搜寻质量的基准。
论文标题:InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation
项目链接: https://infodeepseek.github.io/
项目亮点包括:
1. 专为智能体设计的挑战性问题:
InfoDeepSeek 包含一系列挑战性问题,旨在激发和评估智能体在信息搜寻中的规划、多轮工具使用等核心能力 。
2. 真实动态环境:
与依赖静态、固定文本库的传统基准不同,InfoDeepSeek 直接在真实、动态的互联网环境中进行评估,更贴近实际应用场景 。
3. 严格的问题构建标准:
提出了系统性的问题构建方法论,确保问题满足“确定性”、“困难性”和“多样性”三大标准。
4. 创新的评估框架:
针对动态环境,开发了无需预设“正确文档集”的评估框架,包含信息准确性、效用性和紧凑性等指标,全面衡量信息搜寻的效果。
5. 全面的实验分析:
通过广泛实验揭示了智能体在不同LLM、搜索引擎和问题类型下的行为特性,为未来研究提供实践指导 。
InfoDeepSeek 不仅为研究者们提供了一个评估和改进智能体RAG系统的强大工具,其构建理念和评估方法也为相关领域的研究提供了有益借鉴。
图1 传统RAG测评基准(上)和我们的InfoDeepSeek基准(下)的对比
1 背景介绍
大语言模型(LLMs)在众多领域取得了显著进展,但其固有的局限性,如事实幻觉、知识陈旧以及无法访问实时信息,依然是亟待解决的挑战 。检索增强生成(RAG)技术通过结合外部知识源,显著提升了LLM的响应质量和可靠性。RAG通常包括检索、增强和生成三个阶段,其中信息搜寻(检索与增强)是核心环节。
随着技术的发展,研究者们发现传统RAG系统在处理复杂任务时,其固定的工作流程显得力不从心。于是,Agentic RAG应运而生。它将自主的LLM智能体集成到RAG流程中,赋予系统动态规划、执行多步搜索、与环境交互(如使用工具浏览网页)以及根据中间结果进行反思和调整策略的能力。
这种范式极大地增强了信息获取的灵活性和鲁棒性,并已在一些实际系统中得到应用,例如OpenAI、谷歌的Gemini以及Perplexity AI等产品都集成了Deep Research,它们都利用智能体在实时网络中迭代搜索和整合信息 。智能体的引入主要革新了RAG的信息搜寻部分,而最终的生成步骤则与传统RAG类似,依旧是基于获取到的外部信息来构建答案。
因此,评估Agentic RAG系统的核心目标之一,便是衡量其智能体信息搜寻的有效性。然而,现有的RAG基准在评估此类系统时显得捉襟见肘:
1. 环境与语料库限制:
大多数基准依赖于静态的、预先固定的、规模有限的文本集合 。这与真实网络环境的海量、动态、URL可能失效以及搜索引擎结果波动等特性相去甚远。因此,它们无法反映Agentic RAG系统在实际部署中需应对的复杂性。
2. 评估方法不适:
传统评估方法常依赖预定义的“正确文档集”并使用如NDCG等传统指标来评估信息检索效果。但在开放和动态的网络中,预先确定一个全面、固定的正确文档集合几乎不可能,这使得这些方法难以适用。
3. 问题复杂度不足:
现有基准中的查询往往较为简单,LLM通过自身知识或单轮搜索即可解决。这类问题不足以激发和评估智能体的规划、多轮交互及复杂推理等核心能力。
为了弥补这些差距,迫切需要一个能够在真实、动态的网络环境中,通过具有挑战性的复杂问题来评估智能体信息搜寻能力的全新基准和评估框架。这正是InfoDeepSeek项目诞生的初衷。
2 数据集构建
InfoDeepSeek数据集的构建旨在产出一系列高质量、具挑战性的查询,用于评估智能体在真实网络环境中的信息搜寻能力。
1. 查询构建三大核心标准:
确定性与可验证性:每个问题必须有清晰、唯一且不随时间改变的答案,并能通过公开网络资源验证。这是动态环境评估的基础。
困难性:问题需对LLM构成挑战,即使配备单轮网页搜索也难以直接解决 。为此,数据集构建时会融入多跳推理、长尾知识、时间敏感性、新鲜事、干扰信息和错误前提等多种困难属性,并且进行困难过滤,去除简单问题。
多样性:查询需覆盖多种困难属性组合(每题至少两种)、广泛的领域(如体育、政治、科学、历史、艺术等14个领域) 以及不同的“优势语言”(即答案主要存在于非英/中文的语言环境中,如日语、法语等 。
2. 系统化构建方法:
采用“事实驱动的问题起草”、“从锚点知识扩展”、“多样化策略”、“过滤与精炼”以及“多阶段验证”的流程。
起草与扩展:标注者从权威网络源提取事实(特别是长尾或含干扰的“锚点知识”),反向构建问题,并通过组合不同知识点或困难属性来增加复杂度。
过滤:通过“确定性检查”确保答案的稳定与唯一 ,“困难性检查”则用GPT-4o和DeepSeek-R1联网搜索状态下测试,淘汰简单问题。
验证:每个问题经两名独立标注者审核其正确性、确定性、困难度等 ,再由第三方仲裁定夺。
图2 数据集构建流程
最终,InfoDeepSeek包含245个经过严格验证的高质量问题,每个问题都附有标准答案、来源网页及详细元数据(困难属性、领域、优势语言等)。
3 InfoDeepSeek测评基准
InfoDeepSeek不仅提供了数据集,还设计了相应的Agentic RAG框架和一套创新的评估指标与协议,专注于评估信息搜寻过程(检索与增强阶段)。
1. Agentic RAG框架概览:
该框架遵循检索、增强、生成三阶段模式。
检索阶段:智能体接收查询q 后,进行初步规划π。随后在最多 T 步的轨迹中,每一步 t 根据当前观察和历史轨迹更新计划 π 并选择工具执行动作,获取新观察。循环直至信息充分或达步数上限,输出原始观察序列O。
增强阶段:对 O 中的噪声和冗余内容进行过滤提炼,选出最相关的文档形成精简证据集 C 。智能体可以自行决定C的大小,但其大小有上限 n(如 n=5),并需要按重要性排序。
生成阶段:基于证据集 C 和查询 q 生成最终答案y。
2. 核心评估指标:
答案准确率 (ACC):衡量基于所有原始观察信息O生成答案的正确性,是一个粗粒度准确性指标。
信息准确率 (IA@k): 评估使用增强阶段产出证据集C中前 k 个证据能否正确回答问题,衡量证据质量,适用于无法预定义正确文档的开放网络环境。
有效证据利用率 (EEU):衡量智能体从原始观察 O 中提取有用信息形成证据集 C 的效率。EEU远低于1表示证据选择不佳。
信息紧凑性 (IC):量化证据集 C 的信息密度。理想的智能体应收集简洁、高质量且噪声和冗余最少的证据。IC1 则表示冗余或筛选不佳。
3. 评估协议:
上述指标的计算高度依赖于判断LLM生成的答案合人类标注回答是否一致。InfoDeepSeek采用人类评估(human-eval)和基于LLM的自动评估(auto-eval)相结合的方式。依靠LLM评估器判度胺回答一致性,并且针对错误前提问题进行了专门的优化,使得LLM评估的准确性可以达到99.29%(与人工评估相比)。
4
实验
InfoDeepSeek项目开展了广泛实验,以评估不同LLM、搜索引擎及问题属性对智能体信息搜寻性能的影响。
1. 不同LLM的性能:实验涵盖了GPT-4o、Claude-3.7-Sonnet、DeepSeek、Gemini等多种LLM。
即便是SOTA LLM,如Gemini-2.5-Pro,在InfoDeepSeek上的ACC也仅为22.45%,凸显了信息搜寻任务的挑战性。
专为推理或者搜索优化的LLM(如DeepSeek-R1、Gemini系列)表现更佳。
EEU普遍低于1,表明从原始信息中提炼有效证据仍是难点 。IC值较高则反映了证据冗余问题。
2. 不同搜索引擎的影响:对比了DuckDuckGo、Google、Bing、Yahoo四种搜索引擎。
搜索引擎影响显著,Google和Yahoo通常优于Bing和DuckDuckGo。
优质搜索引擎可弥补模型不足:尽管DeepSeek-V3通常不如Gemini-2.5-Flash,但配合Google时可大大缩小了与Gemini的差距。
3. 不同问题属性的表现:分析了模型在多跳、长尾、错误前提等六种属性上的性能。
模型在较简单属性(如错误前提、时间敏感性)上表现较好,而在多跳、长尾、含干扰信息等复杂属性上则面临更大挑战。
推理增强型LLM的优势主要体现在简单属性上,复杂属性仍受检索质量和信息噪声的严重制约。
Google在各属性上表现更均衡,显示其信息覆盖和相关性优势。
此外,我们也进行了很多深入的分析,揭示了一些模型提升可能的方向:
测试时计算扩展性:增加检索阶段的最大允许步数 T(从1到20),模型的ACC、IA@k和IC均有显著提升,表现出良好的计算扩展效应。
检索干扰:我们在研究过程中发现一个普遍现象:LLM基于自身知识能答对的问题,在引入网络检索后反而答错 。这种“检索干扰”表明低质或不相关网络信息可能误导模型。
语言影响:英语查询通常优于中文查询;而使用针对问题“优势语言”的提示词进行搜索,能获得最佳结果,尤其对多语言能力较弱的LLM提升明显。
5
总结
InfoDeepSeek通过构建一个面向真实动态网络环境的挑战性基准,有效地弥补了现有静态评估方法的不足,为智能体信息搜寻领域的研究提供了重要工具 。其核心贡献在于系统性的查询构建方法(确保问题的确定性、困难性和多样性) 以及为动态环境量身定制的细粒度评估指标。
关键实验结论与思考:
1. SOTA LLM仍面临挑战:当前顶尖LLM在InfoDeepSeek的复杂信息搜寻任务上表现平平,显示智能体在规划、交互及信息整合能力上有较大提升空间。
2. 推理与检索缺一不可:优化的推理能力和高质量的搜索引擎均能提升性能,但在长尾知识、多跳推理等难题上,两者需协同作用。
3. “检索干扰”值得关注:外部检索信息可能反而降低LLM的准确性,提示需更智能地平衡内外知识。
4. 语言和计算资源的重要性:引导智能体使用“优势语言”搜索及增加计算投入(如搜索步数)能有效提升表现。
来源:AI科技评论一点号