新o1登顶中文链式推理基准，总分76.12分，速度提升41%

360影视 2024-12-07 10:26 15

摘要：12月5日，OpenAI正式推出新模型OpenAI o1，比o1 preview更快、更强大、更准确，同时增加了多模态输入的能力。

12月5日，OpenAI正式推出新模型OpenAI o1，比o1 preview更快、更强大、更准确，同时增加了多模态输入的能力。

据官方介绍，与o1-preview相比，o1在数学、科学和编码等具有挑战性的ML（机器学习）基准测试中表现更佳。o1 显著提升了AI推理的最新水平。

针对公众关注的o1，在中文场景下的推理的性能问题，本次以科学问题和解码问题为例，专业第三方测评机构SuperCLUE对o1进行了评估。

参考标准：SuperCLUE-CoT中文链式推理测评基准

评测模型：o1

评测集：SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案，还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。

测评方法：针对每一道推理题目，我们提供人工校验和核对后的参考答案和推理过程；然后根据设定的评估流程、评价标准和打分规则（1-5分），裁判模型对候选模型的答案进行评估。链式推理设定的评价标准包括：思维过程、解题过程、最终答案等。

先说结论

结论1：与 o1-preview相比，o1在SC-CoT链式推理基准中提升了4.28分，较chatgpt-4o-latest提升了18.25分。

结论2： 与国内大模型相比，领先QwQ-32B-Preview近12分，领先InternThinker、DeepSeek-R1-Lite-Preview近30分，进一步加大了差距；其中，回答质量（以最终答案为主）上得分的差距，更为明显。

结论3：在本次SC-CoT中抽取相同样本量计算平均时间：o1平均用时32.7秒，o1-preview平均用时46秒。推理速度提升41%。

测评结果

【示例1】：编码题-自动秘钥密码

提示词Prompt：

模型回答比较（满分40分）：

【o1】：36分

【o1 preview】：18分

【示例2】：科学题-物理

提示词Prompt：

模型回答比较（满分40分）：

【o1】：32分

【chatgpt-4o-latest】：18分

本文，完。觉得本篇文章不错的，记得随手点个赞、收藏和转发三连，感谢感谢~如果想第一时间收到推送，请记得关注我们⭐~

来源：AIGC研究社一点号

标签：中文推理 o1

本文地址：https://news.43u.com.cn/a/140559.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!