超越人类！OpenAI o3模型数学测试接近满分，但每次任务3440美元！

摘要：OpenAI近日发布的o3模型，以其突破性的推理能力震撼了整个AI领域。然而，这一“近乎AGI”的模型，其高昂的运行成本却让人望而却步！是技术的巅峰，还是一场“烧钱”的冒险？让我们一探究竟。

OpenAI近日发布的o3模型，以其突破性的推理能力震撼了整个AI领域。然而，这一“近乎AGI”的模型，其高昂的运行成本却让人望而却步！是技术的巅峰，还是一场“烧钱”的冒险？让我们一探究竟。

1. ARC-AGI测试

• 得分87.5%，超越普通人类70%-80%的平均水平，性能是上一代o1的三倍！

2. 编程Codeforces测试

• 斩获2727分，击败OpenAI首席科学家的成绩，在全球人类排名中位列第150名！

3. AIME 2024测试

• o3在数学领域取得了96.7%的接近满分成绩，上一代o1只能达到83%。

4. GPQA Diamond测试

• 在博士级难度的推理测试中，o3得分87.7%，远超人类专家。

5. EpochAI Frontier Math测试

• o3成功解决了25.2%的复杂数学问题，而之前的所有模型解决率从未超过2%。

尽管性能优越，但o3模型的运行成本令人咋舌：

1. 低推理模式

每次任务费用超10美元，已经高于普通人类完成类似任务的成本。

2. 高推理模式

费用飙升至3440美元/任务，是低模式的172倍！这个价格几乎只有顶级科研团队或企业能承受。

1. “思维链”技术

• 模型在回答问题前会进行分步推理，就像人类解决复杂问题时的逻辑思考。

• 此技术让o3能够生成更准确、更有逻辑的回答，显著提升了复杂任务的成功率。

2. 多任务支持

• o3不仅能进行编程和数学推理，还能处理高级语义分析和策略规划，应用场景广泛。

目前，o3模型仍处于“预览阶段”，只有通过OpenAI申请的安全人员才能使用。

2025年1月底上线的o3 mini版本，将以更低成本覆盖更多功能。尽管如此，普及仍是遥远的未来。

o3模型毫无疑问是人工智能领域的里程碑。它在性能上的飞跃，代表了AI接近通用人工智能（AGI）的曙光。然而，天价的运行成本为它的大规模应用蒙上阴影。

如果OpenAI能有效降低o3的运行成本，或开发出更高效的模型结构，o3有潜力彻底改变编程、科学研究和教育等领域的工作方式。但在此之前，只有少数机构能享受这场“AI盛宴”。

来源：Uni科技社区一点号

标签：模型 openai o3模型

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!