基准测试资讯

评估真相：DeepSeek推理模型在基准测试中的浮动陷阱

最近，来自多家研究机构的林孙、魏红林、金枝吴等研究人员发表了一篇题为《评估即为一切：通过评估设计战略性夸大LLM推理能力》的研究论文，该论文发表于2025年6月5日的arXiv预印本平台（arXiv:2506.04734v1）。这项研究深入探讨了一个令人担忧的

推理模型基准测试 deepsee deepseek推理模型 2025-06-09 15:43 4

SridBench：首个科研插图绘制基准测试揭示AI绘图能力

2025年5月，来自中国科学技术大学、上海创新研究院、南开大学、武汉大学和上海人工智能实验室的研究团队在arXiv平台发布了一项开创性研究，论文题为《SridBench: Benchmark of Scientific Research Illustratio

科研基准测试插图计算机科学 sridbench 2025-06-03 21:32 4

AMD vs NVIDIA 推理基准测试：谁赢了？

长期以来，业界一直有观点认为，在总拥有成本（TCO）下，AMD 的 AI 服务器推理性能优于英伟达。过去六个月，本文通过对英伟达和 AMD 提供的推理解决方案进行全面分析与基准测试，对这一说法展开了调查验证。原本期待得到一个简单结论，但结果远比想象中复杂且令人

推理 nvidia amd 基准测试 nvidia推理 2025-06-01 12:53 5

红杉中国推出全新AI基准测试xbench

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。

红杉基准测试 xbench 测试xbench tracki 2025-05-26 08:58 6

红杉中国发布xbench，首个由投资机构打造的AI基准测试

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。

投资红杉基准测试 tracking xbench 2025-05-26 08:54 6

红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

随着基础模型的快速发展和AI Agent进入规模化应用，被广泛用于评估AI能力的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实反映AI系统的客观能力正变得越来越困难，这其中最直接的表现——基础模型“刷爆”了市面上的基准测试题库，纷纷在各大测试

评测红杉 agent 基准测试 xbench 2025-05-26 08:38 6

RTX 50显卡评测背后的秘密武器：深度剖析AI基准测试

科技的浪潮滚滚向前，每一次硬件的迭代都不仅仅是数字的变动，更是应用场景的深刻变革。近期两大显卡巨头纷纷发布了新一代的NVIDIA GeForce RTX 50系列与AMDRadeon RX 9070系列消费级显卡，引发了玩家、内容创作者，甚至是专业人士的热烈讨

显卡评测 ul rtx 基准测试 2025-05-21 23:12 8

如何建立更好的人工智能基准测试方法？

SWE-Bench 于 2024 年 11 月推出，旨在评估 AI 模型的编程能力。该基准测试采用了从 12 个不同 Python 项目的 GitHub 公开仓库中提取的 2000 多个真实编程问题作为评测依据。

智能体方法人工智能基准测试 jacobs 2025-05-09 18:03 8

量子门基准测试新突破：确定性基准协议为容错计算铺路

南加州大学研究团队在《化学评论》发表创新性成果，提出一种名为确定性基准测试（Deterministic Benchmarking, DB）的新协议，为量子门性能评估树立新标准。该技术通过少量实验即可精准识别相干与非相干错误，显著提升量子计算系统校准效率，加速容

量子计算机基准测试退相干量子门量子门基准 2025-05-07 16:48 9

秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试

今天，kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的 (SOTA) 性能。

模型开源音频基准测试 kimi 2025-04-27 09:20 8

o3模型基准测试分数仅为10%，远低于OpenAI宣传的25%

站长之家(ChinaZ.com) 4月21日消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基准测试结果上存在差异，这也引发了人们对该公司透明度和模型测试实践的质疑。去年 12 月， OpenAI 的 o3 模型首次亮相，当时，该公司宣称这款模型

模型 openai 基准测试 o3 o3模型 2025-04-22 00:27 8

OpenAI 的 o3 AI 模型在基准测试中的表现低于宣传描述

OpenAI 的 o3 AI 模型的第一方和第三方基准测试结果之间的差异引发了人们对该公司透明度和模型测试实践的质疑。OpenAI于 12 月发布 o3时，声称该模型能够解答 FrontierMath（一组颇具挑战性的数学问题）中略高于四分之一的题目。这一成绩

模型 openai 基准测试 ai模型 o3ai 2025-04-21 09:44 10

OpenAI o3模型测试成绩现实性受质疑，基准测试分差异引发关注

【#OpenAIo3模型基准测试成绩遭质疑##OpenAIo3基准测试实测分数远不及宣称#】OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异，引发了外界对其公司透明度和模型测试实践的质疑。

模型 openai 基准测试 openaio3 o3模型 2025-04-21 07:32 10

OpenAI o3模型基准测试成绩遭质疑，实测分数远不及宣称

去年 12 月，OpenAI 首次发布 o3 模型时宣称，该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约 2% 的 FrontierMath 问题。

模型 openai 基准测试 openaio3 o3模型 2025-04-21 07:25 12

大模型基准测试国际标准出炉，中国信通院引领制定

近日，国际电信联盟电信标准分局（ITU-T）正式公布了由中国信息通信研究院（简称“中国信通院”）主导制定的全新国际标准——ITU-T F.748.44，该标准聚焦于大模型基准测试评估体系，命名为“基准测试/Assessment criteria for fou

模型文心文生数据集基准测试 2025-04-11 16:07 8

大模型基准测试有了ITU国际标准，中国信通院牵头制定

据中国信通院今日消息，国际电信联盟电信标准分局（ITU-T）于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准：基准测试 / Assessment criteria for foundation models: Benchmar

模型文生数据集基准测试 itu 2025-04-11 14:52 9

中国信通院牵头的大模型基准测试ITU国际标准正式发布

国际电信联盟电信标准分局（ITU-T）于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准：基准测试/ Assessment criteria for foundation models: Benchmark。该项国际标准由中国信息通信研究

模型电信国际电信联盟基准测试 itu 2025-04-11 14:44 10

英特尔至强6处理器在MLPerf基准测试中实现1.9倍性能提升

近日，MLCommons公布了最新的MLPerf推理v5.0基准测试结果，英特尔® 至强® 6性能核处理器在六个关键AI项目中表现卓越，相较于上一代产品，AI性能提升了1.9倍。这一结果进一步巩固了英特尔至强6处理器在现代AI系统中的领先地位。

英特尔基准测试强6 mlperf基准强6处理器 2025-04-07 16:15 10

1.9倍性能提升！英特尔至强6在MLPerf基准测试中表现卓越

今日，MLCommons公布了最新的MLPerf推理v5.0基准测试结果，其中，英特尔® 至强® 6性能核处理器在本次测试的六个关键项目中，性能表现卓越。测试结果显示，相较于上一代产品，该处理器的AI性能实现了高达1.9倍的显著提升，这也充分显示了至强6处理器

英特尔基准测试强6 mlperf mlperf基准 2025-04-03 17:24 8

NVIDIA GeForce RTX 5090 Linux 基准测试：敬请期待

随着NVIDIA GeForce RTX 5090 Founders Edition评测禁令的解除，Windows游戏评测将陆续发布。然而，目前Linux平台尚未准备好支持这款显卡。现有的NVIDIA 565 Linux图形驱动不兼容GeForce RTX 5

nvidia rtx 基准测试 2025-01-24 01:00 16