打破AI能力的惯性评估方式,红杉中国推出全新双轨基准测试xbench 随着基础模型的快速发展和AI agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 红杉 agent xbench 测试xbench 双轨基准 2025-05-27 15:21 2