颠覆性AI模型o3登场，解答编程、数学和科学问题能力强到恐怖

摘要：全球领先的人工智能公司OpenAI于今日正式发布了最新一代推理AI模型——o3。作为目前最强大的推理模型之一，o3的性能在多个评测中接近甚至超越人类水平，标志着通用人工智能（AGI）发展迈出了关键一步。

全球领先的人工智能公司OpenAI于今日正式发布了最新一代推理AI模型——o3。作为目前最强大的推理模型之一，o3的性能在多个评测中接近甚至超越人类水平，标志着通用人工智能（AGI）发展迈出了关键一步。

OpenAI首席执行官山姆·奥特曼在发布会上表示：“我们认为这是AI下一阶段的开始。o3能够完成许多复杂且需要深度推理的任务，尤其在编程和数学领域表现令人难以置信。”

此次发布的o3包括两个版本。o3完整版专注于高性能推理任务，o3-mini版则为轻量化版本，旨在以更高性价比完成高效任务。o3和o3-mini支持低、中、高三档推理时间设置。用户可根据任务复杂度选择推理时间，推理时间越高，模型表现越好；反之，低推理设置下模型响应速度接近即时，特别适合低延迟的应用场景。

OpenAI宣布，将从即日起向安全研究人员开放o3的访问权限，申请截止日期为明年1月10日。o3-mini预计将于明年1月底发布，而完整版则将在之后推出。

ARC-AGI测试旨在评估AI的类人推理能力，要求AI模型具备学习新规则的能力，而不仅仅是重复记忆。例如，通过输入-输出示例推断规则，或从未见过的数据中推导复杂逻辑。

在ARC-AGI测试中，o3在设置为高推理能力下获得了87.5%的分数，首次突破人类水平阈值（85%）；在低推理能力设置下的分数75.7%，也是o1的3倍。o3一举将成绩提升到87.5%，着实令人吃惊。与之前的大模型相比，GPT-3的测试结果为0%，GPT-4o为5%，o3能够应对以前从未遇到过的任务，可说是相当接近人类水平。

o3 ARC-AGI测试在两个数据集上进行，一个是100道私密题目，另一个是400道公开题目。o3低推理设置下的成绩是75.7%，而o3高推理设置下（172倍消耗）则能达到87.5%。在公开数据集上的表现更好，分别达到了82.8%和91.5%。

当前，o3模型的使用成本仍然偏高。在低推理设置下，完成一个任务的成本约为20美元；而在高推理设置下，单任务成本则高达3440美元。这意味着，在高推理模式下，向o3提一个简单问题，例如 “9.09和9.11哪个更大”，可能需要花费约2万人民币。ARC-AGI 400个公开题目+100个私密题目总共就花费了1600250美元！

尽管如此，随着技术进步和优化，成本性能将在未来几年内显著改善。预计o3的能力将在不久的将来具备与人类工作竞争的潜力。

OpenAI明年将与ARC-AGI背后的基金会合作构建下一个基准测试。在其他基准测试中，o3的表现同样远超其他大模型。

在由真实世界软件任务组成的SWE-Bench Verified基准测试中，o3模型的准确率为71.7%，比o1模型高出20%以上。OpenAI研究高级副总裁Mark Chen说：“这确实意味着我们正在攀登实用性的前沿。”

在编程竞赛Codeforces中，o1的分数是1891，而o3在高推理设置下居然可以达到2727的分数——几乎媲美全球顶级人类程序员的水平，在低推理设置下取得的分数也超过了o1模型。从Codeforces排行榜来看，o3的成绩排到第175名。而OpenAI现任首席科学家在Codeforces的历史最高得分是2655。

在数学基准测试AIME 2024（美国高中数学邀请赛，相当于中国高中数学联赛，数学奥赛筛选赛）中，o3的准确率达到96.7%，只漏掉了一个问题，而o1的准确率为83.3%。

在衡量博士级科学问题的严苛基准测试GPQA Diamond（生物、物理、化学等领域测试题）中，o3的准确率高达87.7%，比o1的78%提高约10%。而人类专业博士为70%。

o3还在陶哲轩等60余位全球数学家共同推出的号称业界最强数学基准的EpochAI Frontier Math中创下新纪录，分数达到25.2。而其他模型都没有超过2.0。

对于o3模型的登场，最后不妨来看看一些网友的看法：

“想象一个场景：假设你是个程序员，正在开发一个复杂的app。突然遇到了一个棘手的bug，怎么也找不出原因。这时，你想起了刚发布的o3-mini。你把问题描述给它，包括代码和错误信息。o3-mini不仅迅速找出了bug，还给出了详细的修复方案，甚至还主动指出了你代码中其他可能存在的潜在问题。这不仅节省了你大量的调试时间，还帮你提高了代码质量。你惊讶地发现，使用o3-mini就像有了一个24小时待命的超级程序员助手，而且它的反应速度和解决问题的能力远超你的预期。虽然现在o3还不能直接使用，但它的出现预示着AI领域即将迎来新的突破，这对于各行各业都可能产生深远的影响。”

“o3的编程能力有多恐怖？IOI奥赛金牌，国际特级大师，全球175名，全OpenAI只有1人比它强点。o3的编程elo分高达2727，在所有人类中排名第175名。按照elo等级划分，距离最高档3000分也不远了，已经属于第二档高手——国际特级大师水平。IOI国际信息学奥赛的金牌选手，大概略低于2500分。o3妥妥的金牌。”

“o3在代码能力Codeforces评测中获得了2700以上的高分！Codeforces 2700分和1800分之间大概水平差了10-100倍。2700+分的选手数量非常少，只有大约37人，占所有参赛选手的前0.05%。在实际工作中，这个水平的选手的算法能力远超一般的专业程序员，甚至是顶级科技公司如Google的工程师。”

“o3的评分太强了，尤其是那个类似智商测试的题目，完全要靠现学的推理能力才能实现。另外最近新出的那个超难的数学测试集，也能解决25%的题目（o1只能解决2%）。推理模式真的能到AGI啊。”

来源：小何科技讲堂

标签：编程模型模型o3

本文地址：https://news.43u.com.cn/a/254451.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!