红杉中国推出 Agent 基准测试「xbench」,双轨评估体系 xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI系统在真实场景的效用价值(Utility Value 红杉 agent tmf xbench agent基准 2025-05-27 12:50 3