超越人类!OpenAI o3模型数学测试接近满分,但每次任务3440美元!

摘要:OpenAI近日发布的o3模型,以其突破性的推理能力震撼了整个AI领域。然而,这一“近乎AGI”的模型,其高昂的运行成本却让人望而却步!是技术的巅峰,还是一场“烧钱”的冒险?让我们一探究竟。

OpenAI近日发布的o3模型,以其突破性的推理能力震撼了整个AI领域。然而,这一“近乎AGI”的模型,其高昂的运行成本却让人望而却步!是技术的巅峰,还是一场“烧钱”的冒险?让我们一探究竟。

1. ARC-AGI测试

• 得分87.5%,超越普通人类70%-80%的平均水平,性能是上一代o1的三倍!

2. 编程Codeforces测试

• 斩获2727分,击败OpenAI首席科学家的成绩,在全球人类排名中位列第150名!

3. AIME 2024测试

• o3在数学领域取得了96.7%的接近满分成绩,上一代o1只能达到83%。

4. GPQA Diamond测试

• 在博士级难度的推理测试中,o3得分87.7%,远超人类专家。

5. EpochAI Frontier Math测试

• o3成功解决了25.2%的复杂数学问题,而之前的所有模型解决率从未超过2%。

尽管性能优越,但o3模型的运行成本令人咋舌:

1. 低推理模式

每次任务费用超10美元,已经高于普通人类完成类似任务的成本。

2. 高推理模式

费用飙升至3440美元/任务,是低模式的172倍!这个价格几乎只有顶级科研团队或企业能承受。

1. “思维链”技术

• 模型在回答问题前会进行分步推理,就像人类解决复杂问题时的逻辑思考。

• 此技术让o3能够生成更准确、更有逻辑的回答,显著提升了复杂任务的成功率。

2. 多任务支持

• o3不仅能进行编程和数学推理,还能处理高级语义分析和策略规划,应用场景广泛。

目前,o3模型仍处于“预览阶段”,只有通过OpenAI申请的安全人员才能使用。

2025年1月底上线的o3 mini版本,将以更低成本覆盖更多功能。尽管如此,普及仍是遥远的未来。

o3模型毫无疑问是人工智能领域的里程碑。它在性能上的飞跃,代表了AI接近通用人工智能(AGI)的曙光。然而,天价的运行成本为它的大规模应用蒙上阴影。

如果OpenAI能有效降低o3的运行成本,或开发出更高效的模型结构,o3有潜力彻底改变编程、科学研究和教育等领域的工作方式。但在此之前,只有少数机构能享受这场“AI盛宴”。

来源:Uni科技社区一点号

相关推荐