新o1登顶中文链式推理基准,总分76.12分,速度提升41%

摘要:12月5日,OpenAI正式推出新模型OpenAI o1,比o1 preview更快、更强大、更准确,同时增加了多模态输入的能力。

12月5日,OpenAI正式推出新模型OpenAI o1,比o1 preview更快、更强大、更准确,同时增加了多模态输入的能力。

据官方介绍,与o1-preview相比,o1在数学、科学和编码等具有挑战性的ML(机器学习)基准测试中表现更佳。o1 显著提升了AI推理的最新水平。

针对公众关注的o1,在中文场景下的推理的性能问题,本次以科学问题和解码问题为例,专业第三方测评机构SuperCLUE对o1进行了评估。

参考标准:SuperCLUE-CoT中文链式推理测评基准

评测模型:o1

评测集:SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。

测评方法:针对每一道推理题目,我们提供人工校验和核对后的参考答案和推理过程;然后根据设定的评估流程、评价标准和打分规则(1-5分),裁判模型对候选模型的答案进行评估。链式推理设定的评价标准包括:思维过程、解题过程、最终答案等。

先说结论

结论1:与 o1-preview相比,o1在SC-CoT链式推理基准中提升了4.28分,较chatgpt-4o-latest提升了18.25分。

结论2: 与国内大模型相比,领先QwQ-32B-Preview近12分,领先InternThinker、DeepSeek-R1-Lite-Preview近30分,进一步加大了差距;其中,回答质量(以最终答案为主)上得分的差距,更为明显。

结论3:在本次SC-CoT中抽取相同样本量计算平均时间:o1平均用时32.7秒,o1-preview平均用时46秒。推理速度提升41%。

测评结果

【示例1】:编码题-自动秘钥密码

提示词Prompt:

模型回答比较(满分40分):

【o1】:36分

【o1 preview】:18分

【示例2】:科学题-物理

提示词Prompt:

模型回答比较(满分40分):

【o1】:32分

【chatgpt-4o-latest】:18分

本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~

来源:AIGC研究社一点号

相关推荐