摘要:今天凌晨 1 点,OpenAI 正式发布 GPT-5,还一口气带来三个尺寸:GPT-5、GPT-5-mini、GPT-5-nano。
今天凌晨 1 点,OpenAI 正式发布 GPT-5,还一口气带来三个尺寸:GPT-5、GPT-5-mini、GPT-5-nano。
GPT-5 集成了 o3 的推理链、实时搜索、语音/图像/代码多模态和“深度研究”工具,用统一智能取代过去让用户自己挑模型的做法。
奥特曼说,“GPT-4 像一位大学生,而 GPT-5 像任何领域的博士。”
“今天,我们离通用人工智能又迈出了一大步;而这一步,是安全、可靠、人人可用的一步。”他说。
在此之前,则是其 整整 20 个月的难产史。
2023 年 12 月,OpenAI 内部代号为 Orion 的项目爆出,被定为 GPT-5。
当时对其的描述是,博士级推理、减少幻觉、统一多模态。
内部和外界都对它充满期待,认为会如 GPT-3 到 GPT-4 那样,再来一次代际飞跃。
然而,2024 年3 月,第一轮大规模训练结束后,研究团队发现,之前小模型里行之有效的微调技术放大后,却失灵了。
由于高质量数据肉眼可见地枯竭,模型能力提升远低于预期。
这一轮训练,OpenAI 烧掉 了 5 亿美元。
2024 年 6 月 ,在训练速度、数据多样性、互联网文本枯竭三大难题下,Orion 项目第一次喊停。
对此,奥特曼当时轻描淡写地说:“我们学到了很多,但还需要时间。”
接下来就是漫长的回炉重造。
外媒报道称,OpenAI 至少又进行了两轮全量训练,每一次都要重新清洗和补充数据,每一次都因为“性能提升不足以证明成本合理”而被叫停。
期间最大的弯路应该算o3。
2024 年 12 月公布、2025 年 04 月全面上市后,o3 “教师模型”凭借“推理极限性能”, 在科学、数学、编程等严苛基准上刷新纪录。
可一旦蒸馏成面向用户的“学生模型”,表现便大幅缩水,退回 o1 水平 。
为此, OpenAI 一方面先推出 o3-mini,再发布 o3-pro。另一方面,把 o3 教师模型的核心能力整体并入 GPT-5,成了后者的“原型机”。
2025 年 2 月 ,Orion 降级为 GPT-4.5 后,匆匆上线 。
但其API 定价达到 75 美元/百万 token 输入、150 美元/百万 token 输出,是同量级开源模型的几十到上百倍,市场表现很差。
7 月,GPT-4.5下架,成为 OpenAI 最短命的模型。
这期间,团队内部的问题更是不少。
一方面,技术路线出现分歧。比如研究主管 Mark Chen 与副总裁 Jerry Tworek 在 Slack 频道公开争论微调路线。
另一方面,OpenAI 十余位核心研究成员也陆续被 Meta 挖走,被媒体形容为“挖到了大动脉”。
直到上个月,在 OpenAI 内部,仍没有一个可以叫“ GPT-5” 的模型,奥特曼对外改口“将以模型家族形式发布”。
今晚推出的GPT-5,一定程度可说是“借尸还魂”:同名、同门,却似乎已不是那款曾被寄予厚望的博士级 AI。
回顾 GPT-5 难产史,原因除了显而易见的数据/算法瓶颈、训练成本失控外,还有其他隐情。
比如,竞争格局的倒逼。
2024年下半年,Claude 3.7、Gemini Ultra、Grok 4 等对手陆续推新,让 OpenAI 不得不选择继续打磨 GPT-5,而不是“挤牙膏” 。
比如,安全与对齐门槛的抬高。
这让原本“做完即可上线”的 GPT-5,被迫在安全与对齐这条“慢车道”上多跑了将近一年。
拜登签署的《AI 行政令》与2024 年 3 月,美国-欧盟 AI 联合声明,都把GPT-5 纳入最严监管目录。
2024 年 9 月,OpenAI 邀请 50 多家政府、学术与第三方机构做“联合红队”。因为涉及保密协议和跨国合规,仅合同谈判就花了 6 周。
“红队报告”于 2024 年 12 月出炉,列出 了 92 项“高/极高风险”。OpenAI 必须逐一给出缓解措施并通过复测。
2025 年 3 月,OpenAI 完成全部缓解措施,但灰度测试显示“过度对齐”,导致模型拒绝率过高(正常提问也被拒),于是启动“对齐松弛”微调。
2025 年 6 月,SSC —OpenAI 成立公司内部的 Safety & Security Committee,最终签字放行,随后进入 API 内测、企业白名单试用,直到 8 月全量上线。
云开月明,但也时移世易。
当下的 AI 市场,早已不是 2023 年末,OpenAI 能“遥遥领先”光景。
就在这两天,Anthropic的Claude 在 SWE-bench 编程基准上,把分数刷到 74.5%,为 AI 编程赛道继续保持领先。
谷歌 Genie 3 用一句话生成交互式 3D 世界,直接给机器人当训练场。在多模态方面,谷歌一直在刷新竞争力。
过去一年,中国 AI 大模型集体崛起,DeepSeek 、阿里 Qwen 3.0 在推理能力等方面,已是顶流。
市场竞争力方面,把 200 万字上下文价格打到了 1 元/百万 tokens,文生视频、语音克隆、Agent 平台全部开源。
Menlo Ventures 最新报告显示,Anthropic 的 Claude 在企业级代码生成场景占 42 %,OpenAI 仅 21 %,被拉开一倍差距。
为了挽回开发者,OpenAI 日前难得地开源了两个推理模型 gpt-oss,但开源社区早已没它的优势,前 10 名全是中国模型。
2024-2025 年,OpenAI 更是三次下调 GPT-4o 系列 API 价(累计最高 80 %),但仍难阻止份额下滑。
今晚, GPT-5 还是照例刷新了一票榜单,也依旧让投资者和媒体兴奋, 但 OpenAI 已 不再是那个可以定义行业节奏的唯一玩家。
发布会期间,马斯克在 X 上评论称,Grok 4 Heavey 两周前就比 GPT-5 要聪明。
《the information 》上周深度报道引述业内人士评论称, 这次的改进将无法与早期 GPT 系列模型之间的性能飞跃相提并论。
OpenAI 在过去 12 个月里经历的性能增益放缓也表明, “至少在 AI 能力方面,该公司可能难以大幅领先其最大的竞争对手”。
来源:清爽书签A85ili