摘要:gpt-oss 对标 o4-mini,整体来说是一个逻辑和数学极强,编程能力一般,写作容易有幻觉,能力上限并没有突破开源 SOTA,但考虑到其参数量级、易于部署且成本较低,还是很强的。至于能否形成开源生态,能否带来长期影响,要看 OpenAI 是否会持续投入开
gpt-oss 对标 o4-mini,整体来说是一个逻辑和数学极强,编程能力一般,写作容易有幻觉,能力上限并没有突破开源 SOTA,但考虑到其参数量级、易于部署且成本较低,还是很强的。至于能否形成开源生态,能否带来长期影响,要看 OpenAI 是否会持续投入开源以及社区的响应程度。
接下来从几个方面来聊:开源,性能,特点。
先说开源。不管 OpenAI 的出发点是真心想改变 CloseAI 的名声,推动大模型开源社区发展,还是被 DeepSeek、Qwen 架到了道德高点,只要 OpenAI 开源了就是好事,论迹不论心,社区口碑很快就会反转。
不过我真心期待 OpenAI 能重新建立起一套开源的原则体系,而不是想一出是一出、用于扭转形象甚至炒作的孤例行为。就踏踏实实地给一个开源的 Roadmap,或者形成半年/季度开源的惯例,哪怕只是上一代甚至上上一代模型,哪怕是弱于当下的开源 SOTA,只要形成惯例,就会给社区一个稳定的预期,这样才会有更多人沉淀在 OpenAI 的生态圈里。
Sam Altman 的推文里提到了「开源模型赋予用户直接控制权、修改权和隐私保障」,也提到了「开源将加速 AI 领域的研究和产品创新,降低技术门槛」,但并没有给出一个未来会持续开源的预期。
而马斯克「曾经」承诺过 Grok 发版本后会开源上一代模型,Google 做闭源 Gemini 的同时也在坚持更新 Gemma,阿里主打 Qwen 的开源,但也会保留 Qwen-max 作为闭源模型。
预期管理其实蛮重要的。比如我们聊 Qwen,聊 DeepSeek,大家预期肯定会有 Qwen3.5,肯定会有 DeepSeek V4/R2,而且对性能的提升也是有前一代作为参照的。
但 OpenAI 就不是,也许是包括我在内的很多人对 OpenAI 有过多不切实际的期待,内心里都会希望 OpenAI 真的掌握了天顶星科技,期待他们的 GPT-5 能直接拉爆所有 Benchmark,直接把人类带进 AGI 的硅基智能社会。
所以 OpenAI 这次开源的gpt-oss,你要说好不好,自然是好的;但你要说具体有多好,可能跟每个人的心理预期都会有出入。
我再强调一次:一切对模型的主观评价都是从个人预期出发的。DeepSeek 当初发 R1,就是如同石破天惊,因为没有人事先预料到;但反过来 OpenAI 发模型前自己炒作了那么久,自然要承受超出炒作的预期。
具体到gpt-oss,我觉得从前几天大家对 Horizon Alpha/Beta 的评价能看出来:
如果 Horizon 就是gpt-oss,那gpt-oss就是超预期的;如果 Horizon 就是 GPT-5, 那 GPT-5 就是不及预期的。
所以我今天起床后第一件事,就是翻了翻 Timeline,然后没有看到任何一个人说gpt-oss就是 Horizon。所以答案就很明确:不及预期。
比如现在流行用「骑自行车的鹈鹕SVG」来测试模型,那就先主观比较一波。
Horizon Alpha(OpenRouter),必须承认,Horizon 画的鹈鹕是独一档的:
Claude Opus 4.1:
o4-mini-high(有点抽象了兄弟,但竟然丑萌丑萌的):
gpt-oss-120b-high:
也许这个提示词被大量训练了,所以我换了个 Prompt:
画一个打篮球的皮卡丘
Horizon Beta(OpenRouter):
o4-mini-high,其实还不错:
gpt-oss-120b-high,拒绝生成:
这就引出了一个问题:gpt-oss作为一个开源模型,有着比闭源模型更严苛的安全限制。
这也不难理解,因为闭源模型是受控的,开发商可以用更多技术手段进行安全检查和拦截,实在不行还能拉闸断网下线模型;但开源模型一旦放出去就不受控了,所以需要更多安全对齐。
但问题在于,从大家的反馈来看,gpt-oss的安全对齐已经到了影响使用的地步。
我去翻了翻 HackerNews 和 Reddit,大家反映的问题集中在:
事实错误与幻觉:用户普遍反映 gpt-oss 幻觉率较高,容易出现事实错误,模型会编造很多不存在的信息。编码能力不够强:虽然官方强调了编码能力,但有用户反馈,gpt-oss 表现不如 qwen3-coder-30b。后者能够一次成功,而 gpt-oss 的代码存在 bug 且无法正常工作。过度审查:是社区中抱怨最多的问题之一。「它是我用过的第一个因为『违反安全政策』而拒绝回答关于自身技术问题的模型」、「太监了,废了」。这种「过度对齐」似乎让模型在很多无害的创作和交流场景中也变得束手束脚。多语言能力:尽管模型卡中展示了 MMMLU 多语言测试的不错成绩,但有德语用户反馈,gpt-oss 的德语水平甚至不如 Gemma 或 Mistral,远未达到 ChatGPT 那样流畅自然的程度。gpt-oss当然也有优点,以 ArtificialAnalysis 的测评为例:
gpt-oss-120b 是目前美国开源权重模型中最智能的,但智能水平虽落后于 DeepSeek R1 和 Qwen3 235B,不过在效率方面具有优势。具体来说:
体积与部署:gpt-oss 模型采用 MXFP4 精度格式,120B 版本仅 60.8GB,20B 版本仅 12.8GB。这意味着 120B 模型可在单张 NVIDIA H100 显卡上原生运行,20B 模型则能轻松部署于显存 >16GB 的消费级 GPU 或笔记本。性能表现:120B 模型超越 o3-mini 但落后于 o4-mini 和 o3,成为单卡 H100 可运行的最智能模型,20B 则是消费级 GPU 的最优选择。评估显示两者无明显能力短板。架构特性:采用标准 MoE 设计,每 token 生成选择 top4 专家。120B 含 36 层,20B 含 24 层,均使用 Rotary 嵌入和 YaRN 技术实现 128k 上下文窗口。120B 前向传播仅激活 4.4% 参数(20B为17.2%),暗示 OpenAI 认为大模型更适合高稀疏度。业界普遍推测 GPT-4 后主流实验室顶级模型均为稀疏 MoE 架构。定价:120B 模型输入/输出 token 均价 0.15/0.15/0.69/百万,20B 为0.08/0.08/0.35,120B 比 OpenAI 私有 API(o4-mini1.1/1.1/4.4)便宜近10倍。许可证:Apache 2.0开源协议。排名示意图:
性价比示意图(靠近左上角,智能/价格的性价比更高):
在测试中,输出的总 tokens 数更少:
总结一下就是:便宜,输出快,同等智能水平下回答问题消耗的 tokens 更少,但能力上限不及于 DeepSeek 和 Qwen 等开源模型。
结合其他人的反馈,oss 应该算是一个逻辑和数学极强,编程能力一般,写作容易有幻觉,易于部署且成本较低的模型。
至于和国产模型的比较,以及会对其他开源模型造成什么影响,我个人还是比较看好 Qwen、K2、GLM 4.5 等国产模型的。还是那句话,多点时间,看看社区的选择吧。
总之,希望gpt-oss是 OpenAI 重启开源战略的开端,如果是那样,应该可以有更多期待;但如果只是孤立地为了应付而开源这一次,那很难形成长久的社区影响力。
有一个点需要注意,gpt-oss开源的是 mxfp4 量化模型,这当然会给普通用户带来便利,但未必会受社区和开发者的认可。
我夸 Qwen 的时候经常会说,Qwen 主打开发者友好,尺寸全,量化全。比如 base model,工具链,量化精度等等,还需要经过开源社区的支持和时间检验。
另一个值得关注的其实是这次开源的 OpenAI Harmony。
Harmony 是一整套关于模型响应格式的角色和通道设计,它将模型的内部思考过程、与工具的交互以及最终的用户回答进行了结构化分离。
任何一个单独的开源模型,自发布之日起就会开始落后。gpt-oss能给社区生态和模型研发带来多大帮助,有待时间检验。 而 OpenAI Harmony 其实是经过 o3 和线上环境验证的最佳实践,有可能会带来比单个模型更长远的影响。
换句话说,从 oss 模型里透露出的 OpenAI 的思路和方法论,也许比模型本身更有价值。
时间仓促写的比较乱,预计明天还会有 GPT-5 以及潜在狙击 GPT-5 的模型,这周还是很值得期待的。
来源:不二小段