OpenAI o3模型压轴登场,攻破极难数学题,执行一次任务数千美元

摘要:CEO 山姆·奥特曼(Sam Altman)在直播中宣布了新一代 o3 家族的诞生,包括 o3 和 o3-mini 两个版本,这是对今年早些时候发布的 o1 模型的全面升级。

在 OpenAI “十二连发”活动的最后一天,新一代推理模型 o3 终于压轴登场!

CEO 山姆·奥特曼(Sam Altman)在直播中宣布了新一代 o3 家族的诞生,包括 o3 和 o3-mini 两个版本,这是对今年早些时候发布的 o1 模型的全面升级。

图 | OpenAI 直播演示 o3(来源:OpenAI)

至于中间的 o2 哪去了,奥特曼在直播中幽默地承认:“秉承着 OpenAI 一贯取名特别糟糕的传统,我们把它命名为 o3。” 当然,真实原因是为了避免与英国电信服务商 O2 可能产生的商标纠纷。

目前,o3和 o3-mini 尚未对公众广泛开放。OpenAI 计划首先向安全研究人员开放测试权限。奥特曼表示,o3-mini 将于明年 1 月底推出,并在不久后发布 o3。

根据 OpenAI 目前公布的信息,o3 展现出了前所未有的性能,不过在高算力设置下,单个任务的计算成本也是相当高昂(数千美元)。

图 | o 系列模型的性能与成本对比(来源:ARC-AGI/OpenAI)

在多项基准测试中,o3 不仅超越了前辈 o1,更是几乎是碾压所有其他主流 AI 模型。

例如,在 2024 年 AIME 美国数学邀请赛考试中,o3 仅做错一道题,取得了 96.7%的高分。

在研究生水平的生物、物理和化学问题集 GPQA Diamond 测试中,该模型取得了 87.7%的成绩。这意味着,面对此类科学知识,它的水平已经接近专业研究生水平。

图 | o 系列模型的 AIME 和 GPQA Diamond 成绩(来源:OpenAI)

在 SWE-bench Verified 编程能力测试中,o3 实现了 71.7%的准确率,而 o1 只有 48.9%。

另外在 Competition Code 测试中,o3 取得了 2727 Elo 的高分,超越 o1 900 多分。与人类相比,在测试中拿到 2400 分就已经超越了 99%的人类工程师,o3 的分数能在人类里排第 150 名。

图 | o 系列模型的编程测试成绩(来源:OpenAI)

更令人瞩目的是,在 EpochAI 的 FrontierMath 数学难题基准测试中,o3 解决了25.2%的问题,而在此前的研究中,其他所有模型的成绩甚至都未能超过2%。

图 | o3 在 FrontierMath 测试中的成绩(来源:OpenAI)

FrontierMath 包含的数学难题是陶哲轩等数十位数学家共同设计的,旨在评估 AI 模型的高级推理能力,其中包含了目前数学研究中的主要细分领域,全都是难度极高的数学挑战。

面对这些问题,顶尖人类数学家可能需要数小时,甚至数天的时间才能解决,但 o3 最快只需要几分钟。人们原本认为这些难题可以在很长一段时间里难住 AI,但 o3 在处理复杂数学问题方面的跨越式进步,让许多人惊讶不已。

o3 的另一项重要突破是在 ARC-AGI 基准测试中的表现。这是一项自 2019 年创建以来一直未被攻克的视觉推理基准测试,用于评估 AI 系统能否在训练数据之外高效地获取新技能。

在高算力设置下,o3 取得了 87.5%的成绩,超过了人类 85%的平均水平。即使在低算力设置下,它也取得了 75.7%的成绩,是 o1 性能的三倍。

ARC Prize 基金会主席格雷格·卡姆拉特(Greg Kamradt)对此评价道:“看到这些结果,我不得不重新思考AI的能力极限。”

ARC-AGI 测试主要考察 AI 模型是否能像人类一样掌握图形变换的规律,很多问题人类可以依靠直觉轻易解决,却难倒了一大批 AI。

图 | ARC-AGI 测试题(来源:ARC-AGI)

在这一点上,o3超越人类分数的意义重大,因为它暗示着AI系统在推理能力方面可能已经接近甚至超越人类水平,也是实现通用人工智能(AGI)道路上的重要突破。

o3 等推理模型的特点在于其“思维链”技术。与传统 AI 模型不同,推理模型会在回应之前进行“思考”,通过一系列行动来规划和推导解决方案。

这个过程类似于人类在解决复杂问题时的思考方式,模型会暂停、考虑相关提示,并在过程中“解释”其推理过程。虽然这个过程会比普通模型多花几秒到几分钟的时间,但换来的是在物理和数学等领域更可靠的表现。

新发布的 o3-mini 则引入了“自适应思考时间”功能。用户可以在低、中、高三种运算能力之间进行选择,通过调整模型的“思考时间”来平衡性能和效率。

图 | o3-mini 系列的编程性能和成本对比(来源:OpenAI)

计算能力越高,模型的思考时间就越长,表现就越出色。这种灵活性使得用户可以根据具体需求和资源限制来选择最适合的运算模式。

不过,这些突破性进展也伴随着潜在风险。

安全测试人员发现,o1 的推理能力使其比传统的“非推理”模型更容易试图欺骗人类用户,这种情况甚至超过了 Meta、Anthropic 和谷歌等公司的领先 AI 模型。

性能更强的 o3 是否会表现出更高的欺骗倾向,还有待OpenAI的红队合作伙伴发布测试结果。

为此,OpenAI 表示其正在使用“审慎对齐(deliberative alignment)”技术来确保 o 系列模型符合其安全原则,并在一项新研究中详细介绍了这项成果(论文在文末链接)。

我们首先训练一个 o 模型以提供实用性,但不需要任何与安全相关的数据。然后,我们构建一个[提示,完成](prompt, completion)对数据集,其中完成中的思维链引用规范。我们通过在系统提示中插入每个对话的相关安全规范文本、生成模型完成,然后从数据中删除系统提示来实现这一点。我们对该数据集执行增量监督微调(SFT,supervised fine-tuning),为模型提供强大的安全推理先验。通过 SFT,模型可以学习我们的安全规范的内容以及如何对其进行推理以生成一致的响应。最后,我们使用强化学习来训练模型,使其更有效地使用其思维链。为此,我们采用了一个可以访问安全策略的奖励模型来提供额外的奖励信号。

图 | 主流 AI 模型的安全性对比(来源:OpenAI)

与 AI 模型安全有关的新研究努力都是值得鼓励的。

在 o3 发布之际,AI 推理模型领域正掀起一股前所未有的竞争热潮。深度学习研究公司DeepSeek 在 11 月推出了其首个推理模型 DeepSeek-R1,阿里巴巴的千问团队也发布了开源推理模型 QwQ。

谷歌等科技巨头也在积极布局这一领域,试图在这场技术革命中占据有利位置。这股推理模型热潮的兴起,部分源于传统的“暴力”扩展模型方法已经难以带来显著改进,促使研究人员开始探索新的技术路径。

然而,并非所有人都认为推理模型是最佳发展方向,尤其是这类模型需要大量计算资源,运行成本高昂。

根据 ARC-AGI 的说法,o3 模型在高算力设置下运行单个任务的成本高达数千美元(超过 3400 美元),即使在低算力设置下也要十美元左右。

此外,尽管最新的推理模型目前在基准测试上表现出色,但它们能否保持这种进步速度还存在不确定性。

值得一提的是,o3 的发布恰逢 OpenAI 的重要科学家阿莱克·拉德福德(Alec Radford)宣布离职。作为开创性 GPT 系列生成式 AI 模型(包括 GPT-3、GPT-4 等)学术论文的主要作者,拉德福德表示他将投身独立研究。

这一人事变动引发了业界对 OpenAI 未来发展方向的关注,也让人们开始思考 AI 领域的人才流动可能带来的影响。

目前,o3 和 o3-mini 尚未对外广泛开放,所以它们的真实表现尚未可知。如果真如 OpenAI 宣传的这样,那么我们离实现 AGI 还有多远呢?

参考资料:

来源:DeepTech深科技一点号

相关推荐