xbench

红杉中国,刚刚发了一篇Paper

今天,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这是自2022年ChatGPT点燃AGI赛道之后,第一家由投资机构主导发布的基准测试(Benchmark),给火爆的AI圈增添了新的话题。

红杉 agent tmf 姚顺 xbench 2025-05-26 11:13  3

在通往AGI之路上,红杉中国打了一个共鸣的响指

根据xbench的介绍,这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的基准测试。它将在评估和推动AI系统能力提升上限与技术边界的同时,重点量化AI系统在真实场景的效用价值,并长期捕捉Agent产品

红杉 agent agi 响指 xbench 2025-05-26 11:21  3

今天,我们推出xbench

随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。

评测 agent tmf tracking xbench 2025-05-26 08:02  5