OpenAI首批“王炸”来了！上线满血版o1大模型，速度提升近50%，错误率降低了34%，支持图片输入

摘要：北京时间12月6日凌晨，OpenAI举行了“12天12场直播”活动的首秀，如预期一样带来了推理大模型o1的满血版本和进阶模式，以及每月收费高达200美元（约合人民币1450元）的ChatGPT Pro订阅服务。

北京时间12月6日凌晨，OpenAI举行了“12天12场直播”活动的首秀，如预期一样带来了推理大模型o1的满血版本和进阶模式，以及每月收费高达200美元（约合人民币1450元）的ChatGPT Pro订阅服务。

OpenAI称，该套餐的订阅用户可以大规模访问OpenAI旗下最佳的模型和工具，包括无限制访问OpenAI最智能的模型OpenAI o1以及同系列较小模型o1-mini、GPT-4o、类人的ChatGPT高级语音模式Advanced Voice。

此外，ChatGPT Pro的套餐中还可以包括名为o1 pro mode的新o1版本，也是ChatGPT Pro独有的o1版本。OpenAI称，这个新版本使用更多的计算，能更深入地思考，并为最困难的问题提供更好的答案。希望未来为ChatGPT Pro添加更强大的计算密集型生产力功能。

图片来源：视觉中国

OpenAI表示，与预览版本相比，现在的o1模型“思维已经被训练得更加简洁”（大概快50%），同时在回答困难现实问题时，出现重大错误的概率减少了34%。

在演示中，在回答“列出2世纪罗马皇帝的名字、任期和主要成就”时，o1模型“思考”了14秒，而o1预览版花了34秒。顺便一提，能力更差的GPT-4o在回答这个问题时会犯错。

o1模型的另一个重要更新在于支持图片输入，现在可以在询问模型“太空数据中心散热问题”时，附上一张手绘的示意图。OpenAI表示，计划在未来几个月里增加网页浏览、文件上传等功能的支持。

在数学、科学和编码等具有挑战性的机器学习（ML）基准测试中，o1 pro mode的表现均胜过o1 和 o1-preview。在数学方面，o1 pro mode得分86，o1 和 o1-preview分别为78和50，在编码方面，o1 pro mode得分90，o1 和 o1-preview分别为89和62，在问答博士级别的科学问题方面，o1 pro mode得分79，后两者分别为76和74。

为了突出o1 pro mode的主要优势——可靠性更高，OpenAI还提高了评估门槛，要求只有在四次尝试中四次全部能够正确回答问题、而不是仅一次答对时，才能算作模型解决了问题。即使在这种高标准要求下，o1 pro mode的表现也明显强于o1和o1-preview。

下图可见，在以上四次答问都必须正确的标准下，o1 pro mode相比o1和o1-preview的优势更大。数学方面，o1 pro mode得分80，o1和o1-preview分别为67和37，在编码方面，o1 pro mode得分75，o1和o1-preview分别为64和26，在问答博士级别的科学问题方面，o1 pro mode得分74，后两者分别为67和58。