红杉中国xbench全球首发,AI智能体真实战力揭榜 随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试(Benchmark)却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 智能体 红杉 xbench 智能体真实 xbench全球 2025-05-27 12:55 3