摘要:红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。
雷递网 乐天 5月26日
红杉中国今天正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。
红杉中国称,在评估和推动AI系统提升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机制,去捕捉Agent产品的关键突破。
据介绍,随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。
因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。
据介绍,xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。
该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI系统在真实场景的效用价值(Utility Value)。其中,后者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确业务价值的测评标准。
xbench采用长青评估(Evergreen Evaluation)机制,通过持续维护并动态更新测试内容,以确保时效性和相关性。我们将定期测评市场主流Agent产品,跟踪模型能力演进,捕捉Agent产品迭代过程中的关键突破,进而预测下一个Agent应用的技术-市场契合点(TMF,Tech-Market Fit)。作为独立第三方,我们致力于为每类产品设计公允的评估环境,提供客观且可复现的评价结果。
首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。评测结果和方法论可通过xbench.org网站实时查看。
在过去两年多的时间里,xbench一直是红杉中国在内部使用的跟踪和评估基础模型能力的工具。
红杉中国称,2022年ChatGPT推出后,红杉中国开始对AGI进程和主流模型实行每个月的评测与内部汇报。2023年3月,红杉中国开始建设xbench的第一批私有题库,题目类型主要针对Chatbot简单问答及逻辑思考。
2025年3月,红杉中国开始第三次对xbench题库进行升级,思考两个核心问题:
1/ 模型能力和AI实际效用之间的关系:我们出越来越难的题目意义是什么,是否落入了惯性思维?AI落地的实际经济价值真的和AI会做难题正相关吗?举个例子,程序员工作的Utility Value很高,但AI做起来进步非常快,而“去工地搬砖”这样的工作AI却几乎无法完成。
2/ 不同时间维度上的能力比较:每一次xbench换题,我们便失去了对AI能力的前后可比性追踪,因为在新的题集下,模型版本也在迭代,我们无法比较不同时间维度上的单个模型的能力如何变化。在判断创业项目的时候,我们喜欢看创业者的“成长斜率”,但在评估AI能力这件事上,我们却因为题库的不断更新而无法有效判断。
红杉中国引入Profession Aligned的基准概念,认为评估会分为AGI tracking与Profession Aligned,AI将面临更多复杂环境下效用的考察,从业务中收集的动态题集,而不单是更难的智力题。
静态评估集一旦面世,会出现题目泄露导致过拟合然后迅速失效的问题。红杉中国称,将维护一个动态更新的题目扩充评估集来缓解这一现象。
xbench-ScienceQA: 考察基础智能-知识
红杉中国称,这一次发布的xbench-ScienceQA与xbench-DeepSearch评估属于Knowledge与Tool Use的子类别,测试Agent在这两项主能力分类下的子任务能力。
雷递由媒体人雷建平创办,若转载请写明来源。
来源:雷递一点号