OpenAI官宣新一代最强模型o3有啥亮点?

摘要:oba正式发布了新一代的模型叫o3unproview,正式发布的可能要到明年。在昨晚的凌晨ai第十二天直播里面公布了open ai的o3模型,三个月前刚刚公布了o1模型,这次又直接跳过了o2,也公布了o3。

oba正式发布了新一代的模型叫o3unproview,正式发布的可能要到明年。在昨晚的凌晨ai第十二天直播里面公布了open ai的o3模型,三个月前刚刚公布了o1模型,这次又直接跳过了o2,也公布了o3。

这样的模型公布完之后在一些社交媒体上基本上就沸腾了,什么原因?目前o3的模型特别是在代码能力上得到了一些突飞猛进的进展,包括了一些做一些数学题目,基本上达到博士级别,以o1模型又得到了进一步的提升,提升幅度是非常大的。一起来看一看o3的整理。

首先它是公布了对软件工程师来讲是比较难的,它有一个测试机叫swebench测试机,这个测试机应该是软件工程考试的测试机,非常难的。记得之前大模型出来的时候大概只有零点几,百分之一都不到。o1模型proview出来之后大概得分是在四十一点三,这次o3模型已经达到了七十一点七,很厉害,又比o1模型比三个月之前的模型又增长了百分之三十,特别厉害。

还有一个比较猛的是什么?公布了一个叫cold force的全球是俄罗斯非常著名的写代码竞赛的平台叫cold force,也看了一下,之前也没关注到,有这样一个榜单的全球会把最牛逼写代码的这些人都会做竞赛。

目前o3的得分达到了两千七百二十七分,相当于整个榜单的一百七十五名,在全世界来看基本上已经超过了百分之九十九点九九的人写代码的能力,硬是很oppo的非常强。在o1大概在一千两百五十八分到了o3模型,能力肯定是超过了据专家水平。

之后又公布了一些数学竞赛的比赛叫aiem二零二四年和博士级的科学考试叫gpqadiamond,数学方面的能力虽然没有编程进化的这么猛,但是也是挺厉害的。在这个方面的能力基本上比之前的o1pro的模型又得到了比较大的提示,原来五十六点七,现在是九十六点七。

原来preview的博士的考试大概是七十八分,现在大概是在八十七分,又增长了十分。特别是在一些比较难的数学上面,又做了一个让o3模型又做了一个有全世界六十多个顶尖数学家联合开发的测试评估级叫research match,之前大概模型的能力有二,就一百分里面只有两分,现在达到了二十五点二分,率是非常高的。

所以o1还是很厉害,还是给人工智能ai又指明了一个新的方向,目前在后训练的大模型。相互之间的self play的机制,相互推理、相互学习的技术上面,他们又拿到了一个在工程化里面又达到了一个非常高的高度。

应该来讲目前大模型数学能力解决后,写代码的能力解决后的应该像通往 agi还是没有太大的技术障碍。

他们又提供了另外一个证据,讲o三模型是非常强,它是一种通用用的ai识别模式的解决性问题的测试。这个测试题给了很多的图形,告诉他一些规则,很抽象。

在过去几代模型评分在二零一九年及第二大概是零分,及第三也是零分,及第四的大概是在两分,就一百分里面的两分,及第四o的大概在五分。

pro e pro view 的目前大概是在二十一分,最新公布的二零二四年的o一正式版本在三十二分。目前o三的模型恐怖的达到了八十七点五分。这个大模型自己观察图像里面规律,在二零一九年的时候还是零分,现在的大模型准确度已经达到百分七点五,就是八十七点五五分了,这个高度已经是很高了。

人类的伐值目前大概是在八十五,它已经超过一般的人从零到百分之五大概花了从百分之五上升到百分之八十七,目前仅仅花了半年。所以o三模型应该来讲还是非常强了,所以在国外的一些社交论坛上目前已经讨论的非常多了,就炸锅了。

这个模型预计目前其实还是没有放出来的,它是个期货,目前主要是在做安全对抗测试,处于安全测试阶段,只有一些受邀请的人才能进行测试。目前o三模型内部把这个东西已经放出来,应该来讲这个问题,他们的技术的难点都已经突破了,做时间的问题,安全做的更完善一点才会把它给放出来。

预计o三mini大概在一月底,明年一月底能正式对外开放。这个是对二零二五年ai的行业又打了一记非常强的强心针,还是继续在ai的性能方面又得到了进一步的加强。

所以可以看到像微软、manta,像一些公司不断的在向英伟达去采购的啤酒,它的采购量是非常大的。像微软一年大概要采购一百万片,所花的钱要将近一千亿人民币。在花这么多的钱在投入在人工智能算力上,微软肯定是看到了一些东西,否则也不敢拿一千亿去砸市场。

今天这条消息就给大家介绍到这。

来源:小工蚁创始人

相关推荐