国产大模型扎堆开源 Transformer或被放弃？

摘要：走进上海西岸艺术中心，巨幅电子屏上跳动着“模塑全球无限可能”的标语，2月21日至23日举办的2025全球开发者先锋大会（以下简称GDC）的现场，汇聚无数开发者。

寻找下一个Transformer

作者／ IT时报记者 孙永会

编辑／ 郝俊慧 孙妍

走进上海西岸艺术中心，巨幅电子屏上跳动着“模塑全球无限可能”的标语，2月21日至23日举办的2025全球开发者先锋大会（以下简称GDC）的现场，汇聚无数开发者。

DeepSeek效应下，开源AI市场正在形成一股洪流，开源亦成为GDC的焦点。工业和信息化部副部长熊继军在开幕式上指出，“要完善开源‘生态圈’，构建先进的开源服务体系”。上海市副市长陈杰强调，进一步完善开源开放生态系统，夯实“语料开放+模型开源”服务体系，不断壮大开源社区力量，推动基础模型、算法和数据资源的共享与开放。

智能硬件领域有哪些新成就？大模型开源后，相对闭源有哪些优势？《IT时报》记者在《开源共生：多模态大模型生态发展论坛》找寻问题的解决思路。

论坛当日，鸿合科技、惟一智能、弋途科技、全志科技、鱼亮科技、玩瞳科技、易思态科技等多家智能硬件企业与MiniMax（稀宇科技）共同成立“MiniMax智能硬件产业创新联盟”。

程序员和艺术家“双向奔赴”

22日，刚刚参加完论坛的Jason Lee在社交平台发布了一则动态：“开源与闭源，不是零和游戏，而是互惠共生，共同构成一个‘双螺旋动力环’，加速推动技术普惠的进程。”

Jason Lee是一名AI创作艺术家，近年来一直致力于电影级AI短片制作，代表作《灭绝》《鸦人国度》《黄金国度》，曾入选 Curious Refuge“The best AI Artists”等AIGC影视榜单，他坦言，AI是一剂催化剂，让计算机专业毕业的自己有了“创意平权”的机会。

开源正让越来越多的人成为开发者，随着程序员和艺术家在AI的赋能下双向奔赴，科学和艺术之间的“墙”正在被打破。

去年开始，MiniMax开发者社区负责人蔡佳人便发现，很多垂类开发者，比如教育、医疗、金融、广告营销等领域的从业人员，已经在用AI视频大模型做AI广告视频生成，还有一些法律界人士，开始利用AI做法律相关的咨询，AI正给传统行业注入更多的生机和活力。

高性能大模型开源成风

曾几何时，开源还是闭源，在全球范围内仍是一个备受争议的话题，但时至今日，答案似乎正在揭晓，尤其对国产大模型而言，“开源”蔚然成风。

本届GDC上，多家参会企业纷纷亮出自家最新的开源模型：商汤科技发布LazyLLM开源框架等产品；MiniMax带来今年1月发布并开源的新一代MiniMax-01系列模型，它是全球首个大规模应用线性注意力机制、突破传统Transformer架构的商用级别模型；阶跃星辰亦在会前发布全球参数量最大的开源视频生成大模型Step-video-T2V……

“DeepSeek让大家看到开源社区的胜利。把了不起的模型开源后，更多人得到机会，可以在这个模型上做更多了不起的事情。”香港科技大学校董会主席、美国国家工程院外籍院士沈向洋于2月22日的大会主题演讲中如是强调。

“底层模型一次重大迭代对产品带来的优化效果，远超在工程实现层面对产品‘雕花’。”MiniMax副总裁刘华表示，经过两年的发展，以Transformer架构为代表的稠密模型已经被放弃（因为任务长度和算力消耗呈平方关系，任务越长，算力需求越高），MoE成为大家共同的选择，而在未来两到三年里，类似GPT3.5到GPT4这样的技术突破再发生两次是高度可预期的，因此MiniMax对所有技术创新全面开源，“我们希望有更多的开发者一起探索非Transformer的底层架构，只有非Transformer的底层架构得到大家共识，被更多人应用，将来大模型才能处理越来越多更复杂的任务。”

不过，与会嘉宾也强调，开源和闭源并不是二选一的排他性选择，商业模式并不对立。

“闭源模型是一个产品，开源模型是一个工具。”HuggingFace中国区总经理王铁震表示，开源模型允许用户不断迭代和优化，通过后训练和模型蒸馏等方式，使其更加适应特定领域和需求，但作为一种工具，开源大模型的使用和维护需要一定的技术能力，而闭源模型则作为一种产品，更易于使用，只需调用API即可。