OpenAI满血o1深夜炸场!10秒搞定博士级难题!

摘要:首场发布会,除了奥特曼以外,还有o1模型的带头人 Jason Wei 和Hyung Won Chung 等,介绍了o1预览版发布后三个月后的提升。

OpenAI的“圣诞大礼包”第一天就众望所归!

不到15分钟的直播总结一下:发布了可以做多模态推理的满血版o1以及200美元一月的ChatGPT 大会员!

首场发布会,除了奥特曼以外,还有o1模型的带头人 Jason Wei 和Hyung Won Chung 等,介绍了o1预览版发布后三个月后的提升。

毫无疑问,满血o1让人印象深刻!

看跑分:满血版o1无论在数学还是编程上,能力都又上了一个台阶。看性能:满血版推理速度更快,思维更加简洁,响应时间比 o1-preview 快60%。在处理复杂的现实问题时准确率远优于 o1-preview,将主要错误减少了 34%。此外,还有大家最期待的多模态推理上线!

此外,还有性能更强一点点的o1 Pro作为ChatGPT Pro订阅用户的特权,这些用户还可以无限制访问满血版o1。

满血o1除了在性能和准确率上的提升之外。

最重要的亮点肯定是支持多模态输入,可以根据图片进行推理了!团队当然进行了高难度题目的现场展示。

根据简笔的太空数据中心手绘图,估算这个托管GPU的数据中心最小的散热器表面积。

根据Prompt,o1还需要阐述太阳能与深空环境的互动机制,解释热力学第一定律如何发挥作用。

仅仅10秒的时间,每个关键的得分点都踩到了,o1就完成了正确作答!AI真的达到博士水平了。

目前,o1已经全量上线。

o1的下一步,就是能推理更多形态的内容!包括网页和文件上传,让我们拭目以待。

ChatGPT Pro 订阅计划将允许用户无限制访问 o1、o1-mini、GPT-4o 以及高级语音模式,还包括一个仅供 Pro 用户使用的 o1 版本,也就是 o1 pro mode。

不过, o1 pro 昂贵的价格也遭到了很多网友的吐槽。

使得奥特曼不得不出来澄清,他认为大多数用户使用Plus会员就足够了!

Jason Wei 在直播活动中也表示:ChatGPT Pro 的目标用户群体将是那些已经在数学、编程和写作等领域充分利用和挑战 ChatGPT 模型能力的高级用户。

在o1的技术报告中,o1 Pro无论是在数学竞赛 AIME 2024、编程竞赛 Codeforces,博士级科学推理问题 GPQA Diamond 等竞赛里,都击败了普通满血版。

而且,不要小看一点评分上的差距:OpenAI为了突出 o1 专业模式(Pro Mode)的主要优势(改进的可靠性),采用了更严格的评估标准!一个模型只有在四次尝试中四次都正确回答问题(“4/4可靠性”)时,才被认为解决了该问题,而不仅仅是一次答对就算成功。

满血o1虽然非常炸,但不一定满足所有人的胃口。

有人甩出了满血o1和Pro版那几乎不可见的差距,质问奥特曼:说好的AI没有墙呢?

奥特曼回复说,这只是12天中的第一天!

接下来会不会更震撼,OpenAI的圣诞礼包确实给这半个月的AI圈清晨,增加了不少惊喜和期待。

来源:51CTO一点号

相关推荐