摘要：分化快速显现，零之万物、百川智能相继退出大模型预训练。大模型“六小虎”（月之暗面、智谱AI、MiniMax、阶跃星辰、百川智能、零一万物）的叙事已被瓦解，取而代之的是“基础大模型五强”（DeepSeek、阿里、字节、阶跃星辰、智谱AI）。

年初DeepSeek-R1发布，将大模型创业公司带到了新的岔路口：是否有必要继续斥巨资，“硬刚”自研推理模型？

分化快速显现，零之万物、百川智能相继退出大模型预训练。大模型“六小虎”（月之暗面、智谱AI、MiniMax、阶跃星辰、百川智能、零一万物）的叙事已被瓦解，取而代之的是“基础大模型五强”（DeepSeek、阿里、字节、阶跃星辰、智谱AI）。

近期，智谱AI、月之暗面、阶跃星辰相继拿出自研推理模型，证明自己具备留在牌桌上的实力。去年“六小虎”中估值最高、技术路线最激进的MiniMax，奉行全栈自研，既做to C也做to B，既做国内也做海外，战线拉得过长，一度陷入进退维谷。

沉寂近半年，MiniMax突然爆发，6月17日~6月21日以“每日一更”的节奏接连发布了5款产品，将推理模型、视频生成模型、Agent、语音设计一网打尽。

技术上新后，IPO信息也很快传来。媒体报道，MiniMax正考虑在港股进行首次公开募股，最快将于今年上市，估值约为30亿美元。不过，一位知情人士对《财经天下》透露，“从港股的上市进展来看，今年IPO可能性不大，最快也要明年 ”。

这标志着，“六小虎”总算有了一个阶段性的结局——有人弃赛，“幸存者”则要左手技术迭代，右手加速商业化进度。谁能成为“大模型第一股”，获得抢跑先机和更高溢价估值，将成为下一程各家的角逐目标。

01、连发五天，MiniMax“下饺子”

今年1月，MiniMax曾被DeepSeek“偷”了一次家。

知情人士向《财经天下》透露，2024年，MiniMax的年营收超过7000万美元。其中，超70%的收入来自MiniMax的出海C端AI应用Talkie。

乘胜追击，在DeepSeek-R1发布约一周前，MiniMax上线了拥有4560亿参数的开源大模型MiniMax-01。该模型采用了融合线性注意力（Linear Attention）与MoE（混合专家）架构的创新设计，其中MoE架构基于标准的Transformer架构创新而来。官方数据显示，其自研的线性注意力技术“Linear Attention”在此模型中占比约八分之七，而传统的Transformer计算占比则约为八分之一。

MiniMax的测试显示，线性注意力在处理1M长度的序列时，所需时延与传统方法相比，缩减了2700倍。这不仅增强了模型推理性能，也为智能体架构的记忆管理、多轮对话等任务提供了计算支撑。

但几天后，DeepSeek便拿出了更具竞争力的R1模型，用更优解打破了算力高成本魔咒，也让腾讯、百度等大厂纷纷转身，接入了DeepSeek。

刚刚上线新架构的MiniMax将何去何从，让创始人闫俊杰一时陷入了路线取舍的泥沼。

大模型技术从业者李响对《财经天下》透露，“大模型厂商大多会遵循自身原有的节奏，进行模型升级迭代。因为基础模型训练首先要确保稳健性，如果仓促进行架构层面的重大调整，效果不理想，会直接冲击到其竞争优势”。

MiniMax选择了相对折中的方案，在国内C端产品用自家模型，Talkie等海外产品接入DeepSeek。同时，对标DeepSeek，研发新一代推理模型。

卧薪尝胆半年，6月17日，MiniMax上线了自主研发的MiniMax-M1系列模型。该模型被誉为“全球首个开源大规模混合架构的推理模型”，更在长文本理解等关键能力上表现出色，支持目前业内最高的100万Tokens的上下文输入，以及业内最长的8万Tokens的推理输出。

M1发布后，闫俊杰在朋友圈发了一句意味深长的话：“第一次感觉到大山不是不能翻越。”

之后四个工作日，MiniMax开启“日更模式”，先后发布了全新视频生成大模型Hailuo 02、通用智能体产品MiniMax Agent、视频创作智能体Hailuo Video Agent、音色设计产品Voice Design。

官方介绍称，MiniMax-M1的RL（强化学习）训练只用了3周时间、512块H800 GPU，算力租赁成本仅为53.47万美元，低于DeepSeek-R1的557.6万美元。

得益于新的架构能力，M1模型可对100万Tokens做上下文回溯。这个数字与Google Gemini 2.5 Pro表现相当，是DeepSeek-R1的8倍——而长文本的处理能力，也是正在持续升温的Agent产品的技术底座之一。

李响对《财经天下》说道，“目前对AI Agent的最基本要求是，AI有记忆会自己规划和执行任务。长时记忆的引入，能显著提升它在复杂任务中的表现，减少分段记忆带来的结果偏离”。

云启资本合伙人陈昱也曾分析，“无限长的长文本能力是MiniMax团队一直在打磨的重要维度。对于做社交应用、情感陪伴应用，Agent等产品来说是很关键的技术”。

长文本能力，只是MiniMax建立复杂Agent基础能力的第一步。6月19日，MiniMax在推出的通用Agent中，其能跑长程（Long Horizon）与复杂任务，具体工作场景包含了写代码、生成PPT等。

《财经天下》对该产品实测发现，MiniMax的Agent页面与今年3月“刷屏”的Agent应用Manus存在不少相似之处。执行过程中，MiniMax的Agent会对任务进行拆解，并以思维链的方式呈现出具体步骤。

赶在6月中下旬，“六小虎”上新模型能力和Agent产品的不止MiniMax一家。6月17日，月之暗面发布了全新开源代码大模型Kimi-Dev-72B。3天后，月之暗面又发布了首个Agent——Kimi-Researcher，该智能体擅长多轮搜索与推理，在执行每个任务时，平均会进行23个推理步骤，并浏览超过200个网址。

不过，主做海外to B端的Agent从业者陈奕对《财经天下》表示，Agent大战只是刚刚打响，目前大部分海外Agent底层调用的仍然是OpenAI的产品。“国内各家厂商对Agent的定义和使用也不一样，还没有跑出明显差距。”

02、不服输的闫俊杰

在“六小虎”中，MiniMax一直以来便是表现较为激进的一家。在成立之初的2021年，MiniMax便首次推出了视频模型和音乐模型，随之更囊括了文本、语音和视频业务，陆续开发了海螺AI、星野、AI陪伴产品“Talkie”等应用。

作为一位年轻的技术型创业者，闫俊杰毕业于中国科学院自动化所，他先是在中国科学院和清华大学研究计算机视觉工作，后又任职于“AI四小龙”之一的商汤科技，担任商汤副总裁、研究院副院长和智慧城市事业群CTO。

2021年12月，商汤上市前夕，闫俊杰却毅然选择离职，于2022年年初在上海正式创立了MiniMax。在一间不到100平方米的房间里，闫俊杰写下了这家公司的成立使命——以“与所有人共创智能”为使命，致力于实现通用人工智能(AGI）。

如今，短短三年间，MiniMax已长成为一家上海AI独角兽企业，是国产大模型企业中不可忽视的存在。而基于对技术的信仰，闫俊杰做了不少非共识的大胆决定，尤其在技术路线选择上十分特立独行。

在为数不多的视频访谈中，闫俊杰讲话语调轻柔，回答问题时面带笑容。接触过他的徐飞对《财经天下》表示，“闫俊杰是非常典型的‘技术宅男’，相信的事就要坚持下去，情绪不会过分起伏和暴躁，整体比较稳”。

但外表温和的闫俊杰，每逢做重大决策时都十分大胆。

2023年下半年，闫俊杰坚持要从Dense（稠密网络）转向MoE （混合专家系统）模型，为此几乎投入了MiniMax的全部研发和算力资源。

彼时，只有OpenAI坚持MoE路线，谷歌则选择押注Dense模型ENS，国内同行也大多是在迭代Dense。这种模型参数固定，不需要复杂的路由选择或专家激活操作就可进行推理。它的缺点也很明显，便是资源消耗极大。

而闫俊杰看中的MoE模型可以用更少的计算量和内存需求实现计算，但其预训练挑战更高，在微调阶段容易出现泛化能力不足，导致过拟合等问题。

“当时MiniMax做MoE时，内部曾失败了两次，到第三次才成功。闫俊杰明确表示过，如果第三次再失败，可能公司就挂了。因为他把全部的算力资源都堆上去了，最后他赌赢了，也证明了这个技术路线是成功的。”徐飞说。

2024年1月，MiniMax上线了国内首个MoE大模型abab，紧接着又在2024年4月推出了abab 6.5系列模型，并开始用MoE架构进行大规模商业化部署。如今，MoE架构已经彻底取代了稠密架构成为大模型领域的行业共识。

2024年下半年，MiniMax又做了一次大胆改进，便是基于MoE+Linear Attention（线性注意力机制）技术，训练新一代模型MiniMax-01。

这项新型架构能更加高效地训练海量数据，风险也显而易见。闫俊杰在接受采访时坦言：“如果我们在竞争中打不赢，就应该被淘汰，没有其他选择。”

“所以严格说来，MiniMax并不是在DeepSeek之后调整的战略。至少是去年Q3后，他就已经将核心目标调整成‘模型优先’了，追求研发更性能、更强、更好的季度模型是它优先考虑的对象。闫俊杰认为，更好的模型，才能衍生出更好性能的产品。”徐飞说。

03、年入7000万美元，商业化挑战仍严峻

DeepSeek展开大模型新故事后，“六小虎”也都有了新的剧情。零一万物基本放弃了预训练模型，百川智能则专注于医疗垂类赛道。然而做不做基座大模型，仍是评判AI公司是否坚信AGI之路，是否有资格参与第一梯队角逐的核心标准。

加强技术迭代能力的同时，“AI一天，人间一年”的商业化之困也拷问着各家的模式选择与融资能力。

某AI创企产品商业化负责人徐坤对《财经天下》表示，“今年AI产品的商业化要比前两年更困难。模型采购已经趋近饱和、内卷，各家企业需要的是能有助于收益增长、避险、安全等切实的应用落地。需要AI公司提供更多具备行业know-how的成型产品或解决方案”。

相对而言，MiniMax的产品更聚焦于付费意愿更强的海外市场。其推出的模型或产品，都会同步在海外上线，并率先推广。

“海外市场和国内有两大差异：付费意愿高，Saas模式更成熟。国内AI to B回款困难，除了大基建类项目落地，在消费增长率、效率方面很难帮企业收到钱，也就很难拿到合同回款，想复刻海外交付->标准化->产品化->增长的路径很难实现。做to C类业务，最直接的好处就是付费意愿高。”

目前，MiniMax的绝大部分收入来自其海外明星产品Talkie。2024年媒体报道，这款主打AI陪伴的应用曾跻身美国免费娱乐类App下载榜第5名，月活突破1100万，其中超过一半为美国用户。

相关人士对《财经天下》透露， MiniMax去年to B端调用Token的API比例很少。“如果不是靠海外的Talkie，营收会很难看。”今年MiniMax-01模型上线一个月后，公司负责大模型to B商业化的合伙人兼副总裁魏伟便被曝出离职，也引发了业界对于MiniMax商业化能力的猜测。

相关人士表示，Talkie入局较早，产品体验更好，这让MiniMax上半年收入更多集中于to C端。今年3月开始，MiniMax将原“海螺AI”更名为“MiniMax”，也是希望强化品牌认知，“但目前公司to B产品和销售能力仍旧较弱”。

6月19日，视频生成模型Hailuo 02的会员收费制引发舆论关注，其中，最高档的至臻版会员收费10788元/年，相当于每月899元，用户需付费才可使用完整视频生成功能。由于定价过高，引发用户强烈抗议，MiniMax登上了微博热搜。

对此，MiniMax回应表示，“Hailuo 02模型官方价格显著低于Runway、可灵等国内外同类产品，在提升创作质量的基础上实现了行业底价”。

“六小虎”的未来将何去何从，金沙江创投主管合伙人朱啸虎曾有“暴论”输出：最好的归宿便是被大厂并购。估值、账面现金、IPO速度将是接下来对几家公司的关键考验。

“有没有10亿美金在账面上‘趴’着是一个硬门槛，没有的话我们认为就是非常危险的。”徐飞说。

据其透露，MiniMax目前并不缺钱。有趣的是，MiniMax官方从未主动披露过任何融资信息。最后一笔公开可查的信息是在2024年3月，MiniMax获得由阿里领投的6亿美元A轮融资，投后估值25亿美元。

但徐飞透露，实际上“去年MiniMax融资动作挺多的，只是不愿意披露。现在也还在洽谈新的投资机构”。机构的表现也都很积极，据其了解，某家美元VC便专门为MiniMax募了一只数千万元的专款项目投了进去。

今年4月，智谱也获得了新融资并宣布正式启动IPO进程。接下来对于MiniMax来说，除了在海外C端，如何打开国内B端的商业化规模，将是其能否走向资本市场的重要考验。

公开信息显示，目前MiniMax已经和高途、阅文、极狐汽车达成合作。其中，阅文有声书借助Speech-02，可将小说转化为有声内容。高途教育则把Speech-02应用到在线课程中，用语音讲解知识点。

（文中李响、徐坤、徐飞、陈奕均为化名）

（作者 | 豆蔻，编辑 | 李不清，图片来源 | 视觉中国，本内容来自财经天下WEEKLY）

来源：财天COVER

标签：独角兽 agent 财经天下 moe 闫俊杰

本文地址：https://news.43u.com.cn/a/2094757.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

360影视

上海AI独角兽，连放大招

01、连发五天，MiniMax“下饺子”

02、不服输的闫俊杰

03、年入7000万美元，商业化挑战仍严峻

01、连发五天，MiniMax“下饺子”

02、不服输的闫俊杰

03、年入7000万美元，商业化挑战仍严峻

相关推荐