O3-mini架构与训练逻辑与DeepSeek雷同,连注释中文错别字都保留

360影视 2025-02-05 09:07 2

摘要:#零跑凭啥成为第二家盈利新势力#当OpenAI在2025年2月1日高调推出推理模型O3-mini时,硅谷或许未曾料到,这场发布会将以一场“中文推理闹剧”载入AI史册。用户们很快发现,这款号称“突破性”的新模型,竟在逻辑推演中频繁蹦出中文语句,甚至用俄语提问时,

#零跑凭啥成为第二家盈利新势力#当OpenAI在2025年2月1日高调推出推理模型O3-mini时,硅谷或许未曾料到,这场发布会将以一场“中文推理闹剧”载入AI史册。用户们很快发现,这款号称“突破性”的新模型,竟在逻辑推演中频繁蹦出中文语句,甚至用俄语提问时,它依然固执地用中文“思考”。更尴尬的是,技术社区迅速扒出O3-mini的架构与训练逻辑与中国DeepSeek模型高度雷同,连代码注释中的中文错别字都原封不动保留——这场“拿来主义”的粗糙程度,堪称AI界的“抄袭行为艺术”。

从“技术奇迹”到“文化奇观

O3-mini的“中文推理”现象起初被当作技术彩蛋。例如,当用户询问“草莓(strawberry)中有几个字母R”时,模型先用中文写下“草莓拼音是cǎo méi,不含R”,再切换英文输出答案。这种“中英混杂”的思考链,被网友戏称为“AI版《新华字典》插播英语听力”。但随着案例增多,人们意识到问题远比想象严重:即便输入纯俄语指令,模型仍坚持用中文生成中间推理步骤,最终用目标语言回答。一名Reddit用户调侃:“OpenAI这是逼着美国人学中文,还是想让AI先成精?”

技术分析揭开了更深层的荒诞。阿尔伯塔大学研究员Matthew Guzdial指出,模型本质上并不理解语言差异,其分词器(Tokenizer)将中文视为无空格连接的符号流,而英文则按空格拆分。这种设计导致中文token更紧凑,在强化学习奖励机制中占据优势——简单来说,中文因“字数少”被算法默认为“高效表达工具”。讽刺的是,这种机制恰与DeepSeek论文中揭示的“语言偏好规律”完全一致,而OpenAI对此毫无原创性解释。

代码级“撞车”:从注释到架构的双重尴尬

更实锤的抄袭证据来自代码层面。开发者对比发现,O3-mini的注意力机制模块中,变量命名竟出现“动态蒸馏(dongtai zhengliu)”这样的拼音直译,与DeepSeek开源代码如出一辙。甚至连DeepSeek工程师调试时随手写的吐槽——“这段代码像火锅底料,越熬越浑”——也被原样照搬。对此,Hugging Face工程师Tiezhen Wang尖锐评论:“这就像偷了邻居的菜谱,连烧糊的锅巴都不舍得刮掉。”

这种“全盘汉化”的操作,暴露出OpenAI的技术焦虑。DeepSeek通过开源策略,将千亿参数模型训练成本压缩至硅谷水平的1/50,其动态计算资源分配算法甚至能用游戏显卡完成GPT-4级任务。而OpenAI为追赶进度,竟选择“复制粘贴”对手的核心创新,却因工程粗糙导致文化符号错位——正如网友制作的梗图所示:奥特曼举着“Made in China”的O3-mini,背景是DeepSeek开发者笑而不语。

双重标准下的创新困局

面对质疑,OpenAI首席执行官奥特曼轻描淡写地表示“无意起诉DeepSeek”,却回避了微软安全团队正在调查“数据泄露至中国公司”的指控。这种态度与其说是大度,不如说是心虚——毕竟OpenAI自身正面临多项版权诉讼,其训练数据中未授权内容占比高达38%。当网友质问“为何抄袭者反成原告”时,硅谷的沉默震耳欲聋。

这场闹剧的本质,是封闭创新体系对开源革命的应激反应。DeepSeek通过开放生态吸引全球42万开发者,形成从芯片适配到文化场景落地的完整链条;而OpenAI仍沉迷于用资本堆砌技术护城河,最终连护城河里的砖块都得向对手“借”。正如AI评论家Ed Zitron嘲讽的:“一个靠吞噬互联网长大的公司,居然哭诉别人舔了它的餐盘。”

历史总是押着相似的韵脚:19世纪英国纺织业偷学印度棉纺技术,21世纪硅谷“借鉴”中国AI创新。当O3-mini用中文写下“橘生淮南则为橘”时,或许它早已参透了这场博弈的终极隐喻——创新无国界,但傲慢终将付出代价。

来源:应变

相关推荐