摘要:就在昨天谷歌推出自己的多模态推理大模型Thingking之后,OpenAI终于坐不住了,在十二天直播的最后一天,发布了自己最先进的下一代模型o3!这里不得不感叹一句,友商的压力是无穷的~
网友诚不我欺,o3果真来了!
就在昨天谷歌推出自己的多模态推理大模型Thingking之后,OpenAI终于坐不住了,在十二天直播的最后一天,发布了自己最先进的下一代模型o3!这里不得不感叹一句,友商的压力是无穷的~
不过,有朋友会好奇问,既然是下一代模型,为什么会跳过o2直接出o3呢?这可不是OpenAI今年挤牙膏式发布的风格。
原来是商标版权的问题:
据theinformation报道,OpenAI正在开发其下一代o1推理模型,在响应之前,这将需要更多时间来“思考”用户查询。然而,由于与英国电信服务提供商O2的潜在版权或商标冲突,该公司正在考虑跳过“o2”这个名字。
直播中,奥特曼也证明了这一说法。
这次OpenAI发布了两款型号:o3和o3 mini。前者性能最强,甚至可以在博士级科学任务上超过人类平均水平,当然也最贵;后者性价比被奥特曼称为“已经做了最大性价比的优化”。
有这样一句评价:o1只是用强化学习训练了GPT,o3才是真正的展现了推理Scaling Law定律的扩展空间。
看点上,聚光灯还是给到了o3的出色编程和数学能力。相信大家对于这两块已经审美疲劳了,不过不要紧,这次OpenAI引进了不少的新的测试用例和基准,给了大家耳目一新的感觉,值得一探。
打败99.9%人类程序员的超强编程能力
首先,作为被大模型率先盯上的生产力变革领域,大模型的编程能力,o3刷新了先有模型的基准。在流行的SWE基准测试上,o3达到了惊人的71.7的分数,可以理解成1000道编码工程问题,o3可以直接为717道问题生成正确的代码布丁并通过单元测试,而且用时还比人类少很多(分钟级)。
其次,还有一个非常新鲜的基准测试:codeforces。这是个什么鬼?这里要首先科普下,cedeforce是一个人类编程竞技平台。这次测试就是要让AI 在 codeforces 上面参与竞赛,是跟人类选手一样,在比赛时才会拿到赛题。
如果高分参赛者输给了低分参赛者时,那么高分参赛者的 Elo 分数会下降,而低分参赛者的 Elo 分数会上升。令人吃惊的是,目前这个竞赛,有 168076 名来自全球各地的程序员参赛。
而o3竟然已经排到了175,Elo分数超过了2700分,有热心的网友直呼:这不意味着o3已经在编程竞技中击败了世界上 1-175/168076=99.9% 的程序员吗?
那么,o3这次在数学方面有哪些新看点呢?
一、在美国数学奥林匹克预科考试(AIME)中,o3只打错了一道题,在上一个版本o1最好的水平是答错了5道题目。
二、在处理博士级水平的科学任务方面,o3同样也得到了显著的代际提升,GPQA Diamond测试水平87.7%,已经超过了人类博士的平均水平(70%),o1的数字则是78.3%。
三、还有项测试:号称最难数学测试的 EpochAI Frontier Math,包含最新未公开前沿题目。o3在测试中比之前SOTA从2分提升到25分。这个也是没想到的,一下提高了12倍!
据说,这项测试难度极高,人类专业数学家解决其中一道题目也要花费数小时到数天,现在o3只需要思考几分钟了。
Keras之父François Chollet发起了一项面向AGI能力的测试基准ARC-AGI,典型题目为图形逻辑推理。比如这样式儿的——
这些图形逻辑推理题对于人类而言并不是很难,但是它能考验模型推理的创新适应性能力,而o3在ARC-AGI上的分数从32%跃升到了75.7%、87.5%,可以说踏入了一个新阶段。
那为什么是两个分数?原因当然是因为o3设置了两个思考模式——低思考程度和高思考程度两种设置,高思考程度花费的算力也是大的吓人。
这里有两个冷知识——
1.这个ARC-AGI测试中,所有任务都具有独特性,无法提前准备;不需要特定的世界知识或语言能力;仅依赖人类普遍具备的核心认知能力。
2.AI 参与 ARC-AGI 测试的要求是:让AI在ARC-AGI-1公共训练集上进行训练,训练的预算成本要小于 1 万美元。
但,这并不意味着o3已经是AGI了,据介绍,在该项测试中,一些非常简单的任务,o3依旧会出错。
有关o3 miniOpenAI 以思考的时间和成本为基准,不仅将 o3 系列分成了 o3 和 o3 mini,甚至更进一步的将 o3 mini 分成了 low、medium、high(低中高)三个型号。
而 o1 的平均思考时间是 8.92 秒,o3 mini(high)直接翻了差不多两倍,达到了 23.33 秒的平均思考时间。
而 o3 mini(high)在一些任务上是 o1 水平,o3 旗舰版的平均思考时间这里没有放出来,有网友认为可能已经达到了分钟级。
基本上就是这些了,可以看出这次o3的发布,还是给出了不少惊喜:很多都是阶跃式的提升。
相信各位朋友对于能不能用上更感兴趣,目前o3也只是展示阶段,还没有真正开放使用,奥特曼透露,o3 mini会在明年1月底前发布,o3也会在那之后不久开放,现在呢,如果有心急的朋友可以先去申请测试:https://openai.com/index/early-access-for-safety-testing/
最后附上以上12天的直播概览吧,小编也在辛苦的追!
强化微调功能上线,最低几十个例子就可创建专家模型,使开发人员能够创建针对各种领域复杂任务的专用AI模型Canvas上线,提供了智能写作、代码协作和AI智能体为一体的工作台上图:Canvas界面,可以随时与ChatGPT交互
逐渐变得浓烈的圣诞装扮
ChatGPT添加了“Projects”功能,相当于给ChatGPT的对话搞了个文件夹“Projects”允许用户组织聊天会话,并上传文件、设置项目指令因为与o1有关,成员很有梗的穿了草莓毛衣
完结,撒花~
来源:51CTO一点号