摘要:随着人工智能技术的飞速发展,特别是 AI 智能体(Agent)能力的显著增强,现有基准测试在衡量其真实世界效能方面已显不足。针对这一挑战,红杉中国(没错,那家知名投资机构)今日推出了一个 AI 基准测试工具 xbench,并同步发布了相关技术报告《xbench
随着人工智能技术的飞速发展,特别是 AI 智能体(Agent)能力的显著增强,现有基准测试在衡量其真实世界效能方面已显不足。针对这一挑战,红杉中国(没错,那家知名投资机构)今日推出了一个 AI 基准测试工具 xbench,并同步发布了相关技术报告《xbench:通过与专业对齐的真实世界评估来跟踪代理的生产力扩展》(xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations),旨在为业界提供一个更科学、持久且能真实反映 AI 客观能力的评估框架。
图丨相关论文(来源:xbench)
据红杉中国方面介绍,xbench 的诞生源于他们在 AI 评测实践中遇到的问题。在过去两年多的时间里,这一工具一直在红杉中国内部孵化使用,最初作为追踪和评估基础模型能力的工具。自 2022 年 ChatGPT 发布后,红杉中国开始对主流模型进行追踪,观察到它们在特定测试集上的表现,在18个月内从较低水平提升至接近满分的程度。
然而,随着模型能力的快速提升,评估的有效时间在急剧缩短。红杉中国合伙人公元分享道,团队经历了三次题库迭代,每次模型都能很快“刷爆”现有题库。这种现象引发了他们的思考:当前被广泛使用的基准测试正面临一个日益尖锐的问题——真实地反映 AI 的客观能力变得越来越困难。
传统评测方式往往侧重于模型的理论能力上限,通过解决复杂智力题来衡量 AI 的“智能“水平,但这种方式的有效性正在受到挑战。一个很明显的例子是,程序员工作的效用价值很高,AI 在该领域进步飞快,而像“去工地搬砖”这样的工作,AI 却几乎无法完成。这促使团队思考:模型能力和 AI 实际效用之间究竟是什么关系?出越来越难的题目意义何在?
2025 年 3 月,在规划新一轮题库升级时,红杉团队对其既有 AI 评估方法进行了重新审视。基于此,xbench 项目正式启动,其旨在构建一个全新的评估框架。据了解,该框架的核心目标是,不仅要考察 AI 的技术能力边界,更要能结合真实世界的专业需求,衡量 AI 在实用任务、关键商业指标以及经济产出方面的实际效能。
双轨评估与动态长青机制
xbench 的核心创新在于其采用的双轨评估体系和长青评估机制,旨在同时追踪模型的理论能力上限与智能体在真实场景下的实际落地价值。
图丨双轨框架(来源:xbench)
第一条主线是“能力上限与技术边界评估”,被称之为“AGI Tracking”评测。这类评测旨在验证模型在特定能力维度上是否具备了从 0 到 1 的智能表现,其关键在于题目的难度、巧妙性和区分度,用以挖掘“智能”而非简单“系统”的边界。
团队认为,只有当某个 AI 关键能力在 AGI Tracking 中实现突破,才可能进一步解锁更多专业工作流程,进入更高阶的评估范畴。目前,xbench 将智能体能力拆分为基础智能、专业实践能力、创新能力与组织能力等多个层级,并针对 AI 尚未充分解决的核心能力,如长期记忆、可信度、问题发现、多智能体协作与博弈能力等,构建并持续维护对应的评估集。
图丨AGI Tracking 的评估框架(来源:红杉汇)
首期发布的 AGI Tracking 评估集包括两个核心部分。
其一是“xbench-ScienceQA”,主要考察研究生水平的学科知识和推理能力。该评估集收集了可靠、多领域、高等教育难度、搜索引擎上信息稀缺且答案明确的高质量题目,并计划每季度更新一次,以确保题目的公正性、区分度与正确性,同时有效检查评估集泄露程度。
其二是“xbench-DeepSearch”,专注于评估 AI 智能体在自主规划、信息收集、推理分析及总结归纳方面的深度搜索能力,特别针对中文互联网环境进行了适配。此评估集要求智能体具备端到端的综合能力,所有题目均由人工出题并交叉验证,保证新颖性、答案正确性和唯一性,同样计划每季度更新评估集,每月持续汇报最新模型表现。
第二条主线是“量化 AI 系统在真实场景的效用价值”,即“Profession-Aligned”评测。这条主线将智能体视为一个“数字员工”,将其置于具体的业务流程中进行考察。其评估核心并非智能存在与否,而是关注在真实场景下的交付结果和商业价值,不限定解决方案,只考核结果。团队称,Profession-Aligned 评估是从生产力需求出发,旨在定义垂直领域的应用场景,甚至在这些场景的应用尚未成熟之前,便为其构建具有明确业务价值的测评标准。
据介绍,为了应对静态评估集题目泄露导致过拟合而迅速失效的问题,xbench 引入了“长青评估(Evergreen Evaluation)”机制,团队将持续维护并动态更新测试内容,以确保评估的时效性和相关性。
针对 AGI Tracking 评测,xbench 希望能延续学术界已有的出色方法论,并提供第三方、黑白盒、实时(Live)的评测,克服学术研究中因资源与时间限制难以维护动态扩充评估的难题。
而对于 Profession-Aligned 评测,xbench 致力于建立从真实业务中实时收集题目的机制,邀请各行业的职业专家共同构建和维护动态的行业评估集。团队表示,通过这种动态更新和可横向对比的能力指标,他们期望能观察到模型排名之外的发展速度与关键突破信号,判断其是否达到市场可落地阈值,以及在何时智能体可以接管现有业务流程并提供规模化服务。
对齐真实世界:Profession-Aligned 评估体系
红杉中国方面表示,xbench 的 Profession-Aligned 评估体系是其区别于传统 AI 测评的关键所在,它致力于搭建一座连接 AI 技术能力与现实世界生产力价值的桥梁。他们认为,AI 要成功迈入发展的“下半场”,就必须构建能够精准衡量其在特定专业领域生产力贡献和商业价值的评估体系。
图丨以人工智能能力为中心和以行业对齐的基准测试之间的差异(来源:xbench)
据介绍,构建 Profession-Aligned 评估遵循三条核心原则。首先是评估由需求定义,即针对招聘这一特定职业构建评估集时,优先梳理其完整的业务流程和任务分类,重点聚焦于那些可以被有效评估的任务项。
其次是评估任务随时间逐渐产生的从专家业务中 Live 收集,这意味着任务并非凭空“出题”产生,而是在招聘专家日常工作中逐步积累和收集而来,特别是对于那些动态变化的任务,xbench 会持续从真实的业务流中获取最贴近市场动态的评估内容。
最后是领域价值驱动评估目标,即为每一项招聘任务标注专家完成所需的时间,并结合行业薪资基准来估算该任务的经济价值,同时为每个任务预设一个技术-市场契合点(TMF,Tech-Market Fit)目标,一旦 AI 智能体在该任务上的表现达标,则该任务的评估难度将不再刻意追求持续提升,而是力求与实际业务需求相匹配。
在 xbench 的首期发布中,红杉中国重点构建了面向招聘和营销这两个具有高市场价值和中等技术成熟度的专业领域的评测框架。
在招聘领域,全球招聘市场规模巨大,外部招聘服务正快速增长。红杉中国表示,他们与多家头部猎头企业合作,梳理专家工作中的任务与时间分配,筛选出核心工作图谱。考虑到可行性和可测性,首期招聘评估集收录了诸如基于职位描述(JD,Job Description)进行需求拆解与人才画像定位(如公司映射)、候选人公开经历补全(人到信息)、以及基于约束条件搜索公开人才(信息到人)等任务类型。
图丨招聘任务的评估流程(来源:xbench)
例如,“公司映射”任务要求智能体根据 JD 识别合适的人才来源学校、公司或团队;“人到信息”任务则要求智能体基于目标个体的部分信息,补全其职业历史,并通过预设的验证问题来评估信息收集的完整性和准确性;“信息到人”任务则要求智能体根据一系列约束条件找到特定的公众人物。
评估过程采用开放式回答,并结合大语言模型作为“裁判”进行打分,评分标准严格且细致,关注覆盖度、幻觉和信息质量等多个维度。目前收集的 50 个真实商业案例中,任务类型和所需人工时长均有不同分布,以确保评估的全面性。
在营销领域,线上营销市场同样广阔,其中网红营销(Influencer Marketing)因其劳动密集、匹配效率低和定价不透明等痛点,成为 AI 应用的潜力方向。xbench 营销评估目前聚焦于“网红搜索”这一复杂任务类别。基于客户提供的产品信息和推广需求(如活动简介、预算、网红类型和数量等),智能体需要在 YouTube、Instagram、TikTok 等平台上寻找合适的网红。
据介绍,红杉中国与一线营销公司合作,收集了 50 个真实的推广需求案例和客户最终选择的网红数据。评估时,首先会利用大模型根据客户选择的网红特征生成一个理想网红画像的详细评分标准,然后用此标准来评估智能体推荐的网红列表,估算其结果的“再选择率”,力求与实际业务中的客户选择行为对齐。任务也按客户行业(如 App、游戏、电商)和人工耗时进行了分类,以反映真实业务的多样性。
图丨营销基准测试中网红搜索任务的评估流程(来源:xbench)
在初步评测中,xbench 对一系列主流 Agent 进行了测试,包括 OpenAI 的 o3、Claude-3.7-Sonnet、Gemini-2.5 系列等。结果显示,o3 在招聘和营销两个基准测试中均排名第一。有趣的是,Perplexity-Search 在招聘任务上的表现甚至优于其 Research 版本,这可能意味着更长的研究过程有时会引入更高的幻觉率。
图丨xbench 第一波排行榜(来源:xbench)
从能力追踪到价值创造
面对 Agent 产品和外部环境都在动态变化的新挑战,xbench 引入了项目反应理论(IRT,Item Response Theory)来构建 xbench-Index。IRT 是一种统计模型,可以从不完整的得分矩阵中估计每个 Agent 版本的能力主成分。报告称,通过 IRT 估计的能力得分,可以更好地体现模型能力随时间持续增长的趋势,即便在评估题目不断更新的情况下,也能观察到发展速度与关键突破的信号。
xbench 团队使用 OpenCompass 动态更新的评估结果验证了 IRT 方法的有效性,观察到了 Google Gemini 模型能力在 2024 年 10 月后的快速跟进,以及 Deepseek v2 与 R1 发布带来的两次明显提升等趋势。这种方法让研究者能够跨越时间维度追踪 AI 能力的真实进展。
图丨OpenCompass 原始评估和 IRT 能力估计(来源:xbench)
除了能力追踪,xbench 还致力于评估 Agent 的技术-市场契合点。成本是 Agent 应用落地的决定性因素之一。虽然通过投入更多推理算力可以提升模型和 Agent 的效果,但在现实任务中必须考虑投入产出比,寻求在花费、延迟与效果间的平衡。
团队认为每个专业领域会经历三个 TMF 阶段:未达成 TMF 阶段,技术可行区与市场接受区没有交集,Agent 应用仅是工具或概念,无法规模化产生价值;Agent 与人类共同工作阶段,两区域发生交集,交叉部分是 AI 带来的价值增量;专业化 Agent 阶段,领域专家主导构建评估体系并指导 Agent 迭代,其工作从交付结果转向构建专业评估训练。
图丨每个专业领域经历的三个 TMF 阶段(来源:xbench)
从阶段 1 到阶段 2 的转变,主要由 AI 技术的突破性进展以及计算能力和数据规模的持续扩展所驱动;从阶段 2 向阶段 3 的演进,则更加依赖于领域专家对于特定行业需求的深刻理解、对行业标准的熟练掌握以及长期积累的实践经验。而这正是 xbench 这样的专业对齐评估体系所要解决的核心问题——如何将专业知识转化为可量化的评估标准,指导 AI 技术在垂直领域的深度应用。
红杉中国表示,xbench 是一个开放的平台,欢迎基础模型与 Agent 的开发者、相关领域的专家和企业,以及对 AI 评测具有浓厚兴趣的研究者加入。他们计划以实际生产力需求为出发点,联合行业专家,将 Profession Aligned 的评估体系陆续拓展至金融、法律、销售等高价值专业领域。所有的评测结果和方法论都将通过 xbench.org 网站实时更新并供公众查看。
参考资料:
1.https://xbench.org/files/xbench_profession_v2.4.pdf
2.https://mp.weixin.qq.com/s/0elk_dIUNMNxvsaIP1WMAA
运营/排版:何晨龙
来源:DeepTech深科技一点号