摘要:在万众瞩目中,OpenAI的“连续12日圣诞发布”系列迎来了高潮迭起的大结局。上周末,这家科技巨头隆重推出了其迄今为止最强大的前沿推理模型升级版——o3,宣称在某些条件下已逼近通用人工智能(AGI)的门槛。
在万众瞩目中,OpenAI的“连续12日圣诞发布”系列迎来了高潮迭起的大结局。上周末,这家科技巨头隆重推出了其迄今为止最强大的前沿推理模型升级版——o3,宣称在某些条件下已逼近通用人工智能(AGI)的门槛。
OpenAI CEO Sam Altman在直播中难掩激动之情:“我们坚信,这标志着AI迈入了一个崭新的阶段。o3能够胜任日益复杂、需深度推理的任务,尤其在编程领域,其表现堪称惊艳。”
自今年9月OpenAI o1模型横空出世,引领推理模型新风尚后,国内外众多大模型企业纷纷跟进。而今,作为o1的继任者,o3不仅继承了前代通过思维链逐步推理的精髓,更在性能上实现了质的飞跃。
o3分为完整版与mini版,创新性地引入了推理时间设置功能,用户可根据需求选择低、中、高三档,推理时间越长,效果越佳。mini版则更加精简,针对特定任务优化,预计1月底面世,随后完整版也将紧随其后。
在ARC-AGI这项旨在评估AI解决极端复杂数学与逻辑问题能力的基准测试中,o3以87.5%的高分惊艳四座,即便是低推理能力设置下,也达到了o1的三倍之多。这一成绩不仅远超GPT-3的0%和GPT-4o的5%,更让业界看到了AI通往AGI之路的加速曙光。
Keras之父François Chollet发布的完整测试报告显示,o3在ARC-AGI的两个数据集中均表现出色,且随着计算量的增加,新任务性能持续提升。尽管目前o3的成本尚高,但其展现出的潜力无疑让人振奋。
此外,o3在其他基准测试中的表现同样抢眼。在SWE-Bench Verified基准测试中,其准确率高达71.7%,较o1提升20%以上;在编程竞赛Codeforces中,o3更是以2727的高分跻身排行榜第175名;在数学基准测试AIME 2024和GPQA Diamond中,o3也分别以96.7%和87.7%的准确率遥遥领先。
值得一提的是,在OpenAI研究科学家任泓宇的现场演示中,o3-mini仅用时30余秒便编写出一个ChatGPT UI,并通过API与自己进行对话,其智能化程度令人叹为观止。
然而,就在o3发布前夕,OpenAI GPT系列论文的主要作者Alec Radford宣布离职,转向独立研究,这无疑为o3的未来增添了一丝不确定性。但无论如何,o3的横空出世已让业界对OpenAI在前沿技术领域的权威性刮目相看。
随着o3系列的即将问世,OpenAI也开始了新的探索。公司透露,其正致力于研发审议对齐(Deliberative Alignment)训练方法,旨在克服现有安全训练策略的局限,让大模型在产生答案前能更深入地推理安全规范,进一步提升AI的安全性与可靠性。
回顾OpenAI连续12日的圣诞发布盛宴,从o1满血版到ChatGPT Pro最贵订阅版本,从视频生成模型Sora到高级实时视频理解功能,再到今日的o3推理模型,OpenAI以其不断创新的技术实力和前瞻视野,为全球AI领域带来了一场视觉与智慧的双重盛宴。未来,OpenAI将继续引领AI浪潮,探索未知领域,让我们共同期待这一科技巨头的下一个奇迹。
来源:AI中国一点号