OpenAI刚刚发布GPT-5，免费使用、疯狂屠榜，一夜改写AI历史

摘要：GPT-5首次使用了内嵌式三位一体集成架构，彻底颠覆了前代模型的独立运行模式，一共由3个核心模型组成，分别是处理常规问题的GPT-5-main模型、解决复杂任务的GPT-5-thinking 深度思考模型、实时决策的路由机制，还有一个是额度使用完后启动的min

今天凌晨1点，OpenAI进行了技术直播，发布了全球科技圈期待已久的GPT-5。

GPT-5首次使用了内嵌式三位一体集成架构，彻底颠覆了前代模型的独立运行模式，一共由3个核心模型组成，分别是处理常规问题的GPT-5-main模型、解决复杂任务的GPT-5-thinking 深度思考模型、实时决策的路由机制，还有一个是额度使用完后启动的mini版本。

实时决策的路由机制是主要创新，该机制会根据对话类型、复杂程度、工具需求以及你的明确意图，快速决定使用哪个模型，相当于马路中的“交通指挥员”，会用最适合的模型来解决适合你所提出的问题。

路由机制会持续接受真实信号的训练，包括用户切换模型的情况、对回应的偏好率以及测得的正确性等，其性能会随着时间不断提升。

值得一提的是，免费版ChatGPT也可以使用GPT-5，不过会有额度限制，达到限制后可使用GPT-5-mini版本。

根据OpenAI公开的测试数据显示，GPT-5在数学、编码、视觉感知和健康的表现全部大幅度超越前代，成为目前最强大模型。

在健康领域，通过HealthBench评估体系对GPT-5模型家族进行了全面测试，涵盖HealthBench、HealthBench Hard和HealthBench Consensus等多个维度，并与前代OpenAI模型进行对比。

结果显示，GPT-5-thinking在该领域的表现大幅超越包括GPT-4o、o1、o3和o4-mini在内的所有前代模型。其中，在HealthBench Hard这一挑战性评估中，其得分从o3的31.6%提升至46.2%成为目前最佳。

数学方面在2025年美国AIME测试中无工具得分94.6%，使用Python是99.6%，如果是Pro专业版+Python可达到100%，同样大幅度超过了o3模型。

在SWE-bench软件测试中，GPT-5启动思考模式下达到了74.9%，超过了o3的69.1以及4o的30.8，成为目前最强编码模型。

这里有一个小插曲，OpenAI在直播介绍GPT-5的SWE-bench测试数据时，o3的图表高度是错误的，居然和4o的一样。

安全与幻觉方面，在特定潜在错误领域，GPT-5-thinking 的挑战性对话幻觉率较 OpenAI o3降超8倍，高风险场景错误率较GPT-4o降超50倍，在全球健康背景适应方面零失误。

在应用场景方面，编码是GPT-5最突出的核心能力，只需要几句话就能自动快速完成应用的开发，例如，输入提示词：创建的单页应用是一个名为 “Jumping Ball Runner” 的游戏，以单个 HTML 文件呈现。游戏目标是让玩家操控球跳跃越过障碍物，尽可能长时间地生存下去。

这款游戏具备多项特色功能，包括随着游戏进行不断加快的速度、最高分记录功能、重试按钮，以及为各类动作和事件配备的趣味音效。在视觉设计上，用户界面色彩丰富，搭配视差滚动背景，营造出层次感和动态效果；游戏角色采用卡通风格设计，造型有趣，观赏性强，旨在让所有年龄段的玩家都能从中获得乐趣。

也可以制作交互式内容来解释像伯努利效应这样的复杂概念，在几分钟内就能生成数百行代码。

GPT-5只用了5分钟就快速开发了一个财务分析模版，而使用传统方法要花费好几个小时。

只需要几句提示词，就能制作一个可交互式的类塔防游戏，还可以选择与不同的角色对话，增加可玩性和动作。

也可以用GPT-5几分钟自动开发一个学习法语的网络应用，功能需求包括一个类似贪吃蛇的游戏，游戏中有老鼠、奶酪和法语单词。

GPT-5在开发应用程序、绘制图表、解读代码、开发AI Agent方面非常出色，不会任何代码的路人也能快速开发出自己想要的应用。

训练数据方面，与OpenAI之前的模型一样，GPT-5的训练数据来源广泛，包括互联网上公开的信息、与第三方合作获取的信息，以及用户或训练师生成的信息。为了确保数据的质量和降低潜在风险，采用了严格的数据处理流程。

包括先进的数据过滤技术，用于减少训练数据中的个人信息，同时通过Moderation API和安全分类器，防止有害或敏感内容的使用。

在训练方法上，GPT-5的推理模型，包括GPT-5-thinking、GPT-5-thinking-mini和GPT-5-thinking-nano采用了强化学习技术。这些模型在训练过程中被教导在回答问题之前先进行思考，先生成一个内部的思考链，然后再向用户做出回应。通过这种方式，模型能够学习到如何优化思考过程，尝试不同的策略，并识别自己的错误。