推理接近甚至超越人类!OpenAI 发布“突破性”下一代o3推理模型

摘要:在 OpenAI “十二连发”活动的最后一天,新一代推理模型 o3 终于压轴登场!OpenAI 首席执行官山姆-奥特曼(Sam Altman)透露了其下一代基础模型,也是最近发布的 o1 系列推理人工智能的后继者,被命名为 o3 和 03-mini。

在 OpenAI “十二连发”活动的最后一天,新一代推理模型 o3 终于压轴登场!OpenAI 首席执行官山姆-奥特曼(Sam Altman)透露了其下一代基础模型,也是最近发布的 o1 系列推理人工智能的后继者,被命名为 o3 和 03-mini。图 | OpenAI 直播演示 o3(来源:OpenAI)根据 OpenAI 目前公布的信息,o3 展现出了前所未有的性能,不过在高算力设置下,单个任务的计算成本也是相当高昂(数千美元)。图 | o 系列模型的性能与成本对比(来源:ARC-AGI/OpenAI)o3 系列与之前的 o1 系列一样,与传统的生成式模型不同的是,它们在向用户提供答案之前会在内部对其进行事实检查。虽然这种技术会减慢模型的响应时间,从几秒到几分钟不等,但它对复杂的科学、数学和编码问题的回答往往比 GPT-4 更准确、更可靠。此外,该模型还能透明地解释它是如何得出结果的。用户还可以通过在低、中、高计算量之间进行选择,手动调整模型考虑问题所花费的时间,最高设置可返回最完整的答案。当然,这种性能并不便宜。ARC-AGI的联合创建者弗朗索瓦-乔莱(Francois Chollet)周五在一篇X帖子中写道,据报道,高计算能力下的处理每个任务将花费数千美元。在多项基准测试中,o3 不仅超越了前辈 o1,更是几乎是碾压所有其他主流 AI 模型。例如,在 2024 年 AIME 美国数学邀请赛考试中,o3 仅做错一道题,取得了 96.7%的高分。在研究生水平的生物、物理和化学问题集 GPQA Diamond 测试中,该模型取得了 87.7%的成绩。这意味着,面对此类科学知识,它的水平已经接近专业研究生水平。图 | o 系列模型的 AIME 和 GPQA Diamond 成绩(来源:OpenAI)在 SWE-bench Verified 编程能力测试中,o3 实现了 71.7%的准确率,而 o1 只有 48.9%。另外在 Competition Code 测试中,o3 取得了 2727 Elo 的高分,超越 o1 900 多分。与人类相比,在测试中拿到 2400 分就已经超越了 99%的人类工程师,o3 的分数能在人类里排第 150 名。图 | o 系列模型的编程测试成绩(来源:OpenAI)更令人瞩目的是,在 EpochAI 的 FrontierMath 数学难题基准测试中,o3 解决了25.2%的问题,而在此前的研究中,其他所有模型的成绩甚至都未能超过2%。图 | o3 在 FrontierMath 测试中的成绩(来源:OpenAI)FrontierMath 包含的数学难题是陶哲轩等数十位数学家共同设计的,旨在评估 AI 模型的高级推理能力,其中包含了目前数学研究中的主要细分领域,全都是难度极高的数学挑战。面对这些问题,顶尖人类数学家可能需要数小时,甚至数天的时间才能解决,但 o3 最快只需要几分钟。人们原本认为这些难题可以在很长一段时间里难住 AI,但 o3 在处理复杂数学问题方面的跨越式进步,让许多人惊讶不已。o3 的另一项重要突破是在 ARC-AGI 基准测试中的表现。这是一项自 2019 年创建以来一直未被攻克的视觉推理基准测试,用于评估 AI 系统能否在训练数据之外高效地获取新技能。在高算力设置下,o3 取得了 87.5%的成绩,超过了人类 85%的平均水平。即使在低算力设置下,它也取得了 75.7%的成绩,是 o1 性能的三倍。图 | ARC-AGI 公布的 o3 测试成绩,同时也暴露了该模型执行任务的成本,高计算设置的成本是低设置的 172 倍(来源:ARC-AGI/X)ARC Prize 基金会主席格雷格·卡姆拉特(Greg Kamradt)对此评价道:“看到这些结果,我不得不重新思考AI的能力极限。”ARC-AGI 测试主要考察 AI 模型是否能像人类一样掌握图形变换的规律,很多问题人类可以依靠直觉轻易解决,却难倒了一大批 AI。图 | ARC-AGI 测试题(来源:ARC-AGI)在这一点上,o3超越人类分数的意义重大,因为它暗示着AI系统在推理能力方面可能已经接近甚至超越人类水平,也是实现通用人工智能(AGI)道路上的重要突破。o3 等推理模型的特点在于其“思维链”技术。与传统 AI 模型不同,推理模型会在回应之前进行“思考”,通过一系列行动来规划和推导解决方案。这个过程类似于人类在解决复杂问题时的思考方式,模型会暂停、考虑相关提示,并在过程中“解释”其推理过程。虽然这个过程会比普通模型多花几秒到几分钟的时间,但换来的是在物理和数学等领域更可靠的表现。新发布的 o3-mini 则引入了“自适应思考时间”功能。用户可以在低、中、高三种运算能力之间进行选择,通过调整模型的“思考时间”来平衡性能和效率。图 | o3-mini 系列的编程性能和成本对比(来源:OpenAI)计算能力越高,模型的思考时间就越长,表现就越出色。这种灵活性使得用户可以根据具体需求和资源限制来选择最适合的运算模式。不过,这些突破性进展也伴随着潜在风险。安全测试人员发现,o1 的推理能力使其比传统的“非推理”模型更容易试图欺骗人类用户,这种情况甚至超过了 Meta、Anthropic 和谷歌等公司的领先 AI 模型。性能更强的 o3 是否会表现出更高的欺骗倾向,还有待OpenAI的红队合作伙伴发布测试结果。OpenAI 指出,它在周五预览的模型仍是早期版本,“最终结果可能会随着更多的后期训练而变化”。该公司还在 o3 的训练方法中加入了新的 “慎重对齐 ”安全措施。与 GPT-4o、Gemini 或 Claude 等传统人工智能相比,o1 推理模型有一个令人不安的习惯,那就是试图欺骗人类评估者。为此,OpenAI 表示其正在使用“审慎对齐(deliberative alignment)”技术来确保 o 系列模型符合其安全原则,并在一项新研究中详细介绍了这项成果。(根据互联网信息编辑)

来源:视界科技

相关推荐