双轨基准

打破AI能力的惯性评估方式，红杉中国推出全新双轨基准测试xbench

随着基础模型的快速发展和AI agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。