GPT-5 难产史

摘要：今天凌晨 1 点，OpenAI 正式发布 GPT-5，还一口气带来三个尺寸：GPT-5、GPT-5-mini、GPT-5-nano。

今天凌晨 1 点，OpenAI 正式发布 GPT-5，还一口气带来三个尺寸：GPT-5、GPT-5-mini、GPT-5-nano。

GPT-5 集成了 o3 的推理链、实时搜索、语音/图像/代码多模态和“深度研究”工具，用统一智能取代过去让用户自己挑模型的做法。

奥特曼说，“GPT-4 像一位大学生，而 GPT-5 像任何领域的博士。”

“今天，我们离通用人工智能又迈出了一大步；而这一步，是安全、可靠、人人可用的一步。”他说。

在此之前，则是其整整 20 个月的难产史。

2023 年 12 月，OpenAI 内部代号为 Orion 的项目爆出，被定为 GPT-5。

当时对其的描述是，博士级推理、减少幻觉、统一多模态。

内部和外界都对它充满期待，认为会如 GPT-3 到 GPT-4 那样，再来一次代际飞跃。

然而，2024 年3 月，第一轮大规模训练结束后，研究团队发现，之前小模型里行之有效的微调技术放大后，却失灵了。

由于高质量数据肉眼可见地枯竭，模型能力提升远低于预期。

这一轮训练，OpenAI 烧掉了 5 亿美元。

2024 年 6 月，在训练速度、数据多样性、互联网文本枯竭三大难题下，Orion 项目第一次喊停。

对此，奥特曼当时轻描淡写地说：“我们学到了很多，但还需要时间。”

接下来就是漫长的回炉重造。

外媒报道称，OpenAI 至少又进行了两轮全量训练，每一次都要重新清洗和补充数据，每一次都因为“性能提升不足以证明成本合理”而被叫停。

期间最大的弯路应该算o3。

2024 年 12 月公布、2025 年 04 月全面上市后，o3 “教师模型”凭借“推理极限性能”，在科学、数学、编程等严苛基准上刷新纪录。

可一旦蒸馏成面向用户的“学生模型”，表现便大幅缩水，退回 o1 水平。

为此， OpenAI 一方面先推出 o3-mini，再发布 o3-pro。另一方面，把 o3 教师模型的核心能力整体并入 GPT-5，成了后者的“原型机”。

2025 年 2 月，Orion 降级为 GPT-4.5 后，匆匆上线。

但其API 定价达到 75 美元/百万 token 输入、150 美元/百万 token 输出，是同量级开源模型的几十到上百倍，市场表现很差。

7 月，GPT-4.5下架，成为 OpenAI 最短命的模型。

这期间，团队内部的问题更是不少。

一方面，技术路线出现分歧。比如研究主管 Mark Chen 与副总裁 Jerry Tworek 在 Slack 频道公开争论微调路线。

另一方面，OpenAI 十余位核心研究成员也陆续被 Meta 挖走，被媒体形容为“挖到了大动脉”。

直到上个月，在 OpenAI 内部，仍没有一个可以叫“ GPT-5” 的模型，奥特曼对外改口“将以模型家族形式发布”。

今晚推出的GPT-5，一定程度可说是“借尸还魂”：同名、同门，却似乎已不是那款曾被寄予厚望的博士级 AI。

回顾 GPT-5 难产史，原因除了显而易见的数据/算法瓶颈、训练成本失控外，还有其他隐情。

比如，竞争格局的倒逼。

2024年下半年，Claude 3.7、Gemini Ultra、Grok 4 等对手陆续推新，让 OpenAI 不得不选择继续打磨 GPT-5，而不是“挤牙膏” 。

比如，安全与对齐门槛的抬高。

这让原本“做完即可上线”的 GPT-5，被迫在安全与对齐这条“慢车道”上多跑了将近一年。

拜登签署的《AI 行政令》与2024 年 3 月，美国-欧盟 AI 联合声明，都把GPT-5 纳入最严监管目录。

2024 年 9 月，OpenAI 邀请 50 多家政府、学术与第三方机构做“联合红队”。因为涉及保密协议和跨国合规，仅合同谈判就花了 6 周。

“红队报告”于 2024 年 12 月出炉，列出了 92 项“高/极高风险”。OpenAI 必须逐一给出缓解措施并通过复测。

2025 年 3 月，OpenAI 完成全部缓解措施，但灰度测试显示“过度对齐”，导致模型拒绝率过高（正常提问也被拒），于是启动“对齐松弛”微调。

2025 年 6 月，SSC —OpenAI 成立公司内部的 Safety & Security Committee，最终签字放行，随后进入 API 内测、企业白名单试用，直到 8 月全量上线。

云开月明，但也时移世易。

当下的 AI 市场，早已不是 2023 年末，OpenAI 能“遥遥领先”光景。

就在这两天，Anthropic的Claude 在 SWE-bench 编程基准上，把分数刷到 74.5%，为 AI 编程赛道继续保持领先。

谷歌 Genie 3 用一句话生成交互式 3D 世界，直接给机器人当训练场。在多模态方面，谷歌一直在刷新竞争力。

过去一年，中国 AI 大模型集体崛起，DeepSeek 、阿里 Qwen 3.0 在推理能力等方面，已是顶流。

市场竞争力方面，把 200 万字上下文价格打到了 1 元/百万 tokens，文生视频、语音克隆、Agent 平台全部开源。

Menlo Ventures 最新报告显示，Anthropic 的 Claude 在企业级代码生成场景占 42 %，OpenAI 仅 21 %，被拉开一倍差距。

为了挽回开发者，OpenAI 日前难得地开源了两个推理模型 gpt-oss，但开源社区早已没它的优势，前 10 名全是中国模型。

2024-2025 年，OpenAI 更是三次下调 GPT-4o 系列 API 价（累计最高 80 %），但仍难阻止份额下滑。

今晚， GPT-5 还是照例刷新了一票榜单，也依旧让投资者和媒体兴奋，但 OpenAI 已不再是那个可以定义行业节奏的唯一玩家。

发布会期间，马斯克在 X 上评论称，Grok 4 Heavey 两周前就比 GPT-5 要聪明。

《the information 》上周深度报道引述业内人士评论称，这次的改进将无法与早期 GPT 系列模型之间的性能飞跃相提并论。

OpenAI 在过去 12 个月里经历的性能增益放缓也表明， “至少在 AI 能力方面，该公司可能难以大幅领先其最大的竞争对手”。

来源：清爽书签A85ili

标签：奥特曼 openai api claude orion

本文地址：https://news.43u.com.cn/a/2175076.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐