摘要:分化快速显现,零之万物、百川智能相继退出大模型预训练。大模型“六小虎”(月之暗面、智谱AI、MiniMax、阶跃星辰、百川智能、零一万物)的叙事已被瓦解,取而代之的是“基础大模型五强”(DeepSeek、阿里、字节、阶跃星辰、智谱AI)。
年初DeepSeek-R1发布,将大模型创业公司带到了新的岔路口:是否有必要继续斥巨资,“硬刚”自研推理模型?
分化快速显现,零之万物、百川智能相继退出大模型预训练。大模型“六小虎”(月之暗面、智谱AI、MiniMax、阶跃星辰、百川智能、零一万物)的叙事已被瓦解,取而代之的是“基础大模型五强”(DeepSeek、阿里、字节、阶跃星辰、智谱AI)。
近期,智谱AI、月之暗面、阶跃星辰相继拿出自研推理模型,证明自己具备留在牌桌上的实力。去年“六小虎”中估值最高、技术路线最激进的MiniMax,奉行全栈自研,既做to C也做to B,既做国内也做海外,战线拉得过长,一度陷入进退维谷。
沉寂近半年,MiniMax突然爆发,6月17日~6月21日以“每日一更”的节奏接连发布了5款产品,将推理模型、视频生成模型、Agent、语音设计一网打尽。
技术上新后,IPO信息也很快传来。媒体报道,MiniMax正考虑在港股进行首次公开募股,最快将于今年上市,估值约为30亿美元。不过,一位知情人士对《财经天下》透露,“从港股的上市进展来看,今年IPO可能性不大,最快也要明年 ”。
这标志着,“六小虎”总算有了一个阶段性的结局——有人弃赛,“幸存者”则要左手技术迭代,右手加速商业化进度。谁能成为“大模型第一股”,获得抢跑先机和更高溢价估值,将成为下一程各家的角逐目标。
01、连发五天,MiniMax“下饺子”
今年1月,MiniMax曾被DeepSeek“偷”了一次家。
知情人士向《财经天下》透露,2024年,MiniMax的年营收超过7000万美元。其中,超70%的收入来自MiniMax的出海C端AI应用Talkie。
乘胜追击,在DeepSeek-R1发布约一周前,MiniMax上线了拥有4560亿参数的开源大模型MiniMax-01。该模型采用了融合线性注意力(Linear Attention)与MoE(混合专家)架构的创新设计,其中MoE架构基于标准的Transformer架构创新而来。官方数据显示,其自研的线性注意力技术“Linear Attention”在此模型中占比约八分之七,而传统的Transformer计算占比则约为八分之一。
MiniMax的测试显示,线性注意力在处理1M长度的序列时,所需时延与传统方法相比,缩减了2700倍。这不仅增强了模型推理性能,也为智能体架构的记忆管理、多轮对话等任务提供了计算支撑。
但几天后,DeepSeek便拿出了更具竞争力的R1模型,用更优解打破了算力高成本魔咒,也让腾讯、百度等大厂纷纷转身,接入了DeepSeek。
刚刚上线新架构的MiniMax将何去何从,让创始人闫俊杰一时陷入了路线取舍的泥沼。
大模型技术从业者李响对《财经天下》透露,“大模型厂商大多会遵循自身原有的节奏,进行模型升级迭代。因为基础模型训练首先要确保稳健性,如果仓促进行架构层面的重大调整,效果不理想,会直接冲击到其竞争优势”。
MiniMax选择了相对折中的方案,在国内C端产品用自家模型,Talkie等海外产品接入DeepSeek。同时,对标DeepSeek,研发新一代推理模型。
卧薪尝胆半年,6月17日,MiniMax上线了自主研发的MiniMax-M1系列模型。该模型被誉为“全球首个开源大规模混合架构的推理模型”,更在长文本理解等关键能力上表现出色,支持目前业内最高的100万Tokens的上下文输入,以及业内最长的8万Tokens的推理输出。
M1发布后,闫俊杰在朋友圈发了一句意味深长的话:“第一次感觉到大山不是不能翻越。”
之后四个工作日,MiniMax开启“日更模式”,先后发布了全新视频生成大模型Hailuo 02、通用智能体产品MiniMax Agent、视频创作智能体Hailuo Video Agent、音色设计产品Voice Design。
官方介绍称,MiniMax-M1的RL(强化学习)训练只用了3周时间、512块H800 GPU,算力租赁成本仅为53.47万美元,低于DeepSeek-R1的557.6万美元。
得益于新的架构能力,M1模型可对100万Tokens做上下文回溯。这个数字与Google Gemini 2.5 Pro表现相当,是DeepSeek-R1的8倍——而长文本的处理能力,也是正在持续升温的Agent产品的技术底座之一。
李响对《财经天下》说道,“目前对AI Agent的最基本要求是,AI有记忆会自己规划和执行任务。长时记忆的引入,能显著提升它在复杂任务中的表现,减少分段记忆带来的结果偏离”。
云启资本合伙人陈昱也曾分析,“无限长的长文本能力是MiniMax团队一直在打磨的重要维度。对于做社交应用、情感陪伴应用,Agent等产品来说是很关键的技术”。
长文本能力,只是MiniMax建立复杂Agent基础能力的第一步。6月19日,MiniMax在推出的通用Agent中,其能跑长程(Long Horizon)与复杂任务,具体工作场景包含了写代码、生成PPT等。
《财经天下》对该产品实测发现,MiniMax的Agent页面与今年3月“刷屏”的Agent应用Manus存在不少相似之处。执行过程中,MiniMax的Agent会对任务进行拆解,并以思维链的方式呈现出具体步骤。
赶在6月中下旬,“六小虎”上新模型能力和Agent产品的不止MiniMax一家。6月17日,月之暗面发布了全新开源代码大模型Kimi-Dev-72B。3天后,月之暗面又发布了首个Agent——Kimi-Researcher,该智能体擅长多轮搜索与推理,在执行每个任务时,平均会进行23个推理步骤,并浏览超过200个网址。
不过,主做海外to B端的Agent从业者陈奕对《财经天下》表示,Agent大战只是刚刚打响,目前大部分海外Agent底层调用的仍然是OpenAI的产品。“国内各家厂商对Agent的定义和使用也不一样,还没有跑出明显差距。”
02、不服输的闫俊杰
在“六小虎”中,MiniMax一直以来便是表现较为激进的一家。在成立之初的2021年,MiniMax便首次推出了视频模型和音乐模型,随之更囊括了文本、语音和视频业务,陆续开发了海螺AI、星野、AI陪伴产品“Talkie”等应用。
作为一位年轻的技术型创业者,闫俊杰毕业于中国科学院自动化所,他先是在中国科学院和清华大学研究计算机视觉工作,后又任职于“AI四小龙”之一的商汤科技,担任商汤副总裁、研究院副院长和智慧城市事业群CTO。
2021年12月,商汤上市前夕,闫俊杰却毅然选择离职,于2022年年初在上海正式创立了MiniMax。在一间不到100平方米的房间里,闫俊杰写下了这家公司的成立使命——以“与所有人共创智能”为使命,致力于实现通用人工智能(AGI)。
如今,短短三年间,MiniMax已长成为一家上海AI独角兽企业,是国产大模型企业中不可忽视的存在。而基于对技术的信仰,闫俊杰做了不少非共识的大胆决定,尤其在技术路线选择上十分特立独行。
在为数不多的视频访谈中, 闫俊杰讲话语调轻柔,回答问题时面带笑容。接触过他的徐飞对《财经天下》表示,“闫俊杰是非常典型的‘技术宅男’,相信的事就要坚持下去,情绪不会过分起伏和暴躁,整体比较稳”。
但外表温和的闫俊杰,每逢做重大决策时都十分大胆。
2023年下半年, 闫俊杰坚持要从Dense(稠密网络)转向MoE (混合专家系统)模型,为此几乎投入了MiniMax的全部研发和算力资源。
彼时,只有OpenAI坚持MoE路线,谷歌则选择押注Dense模型ENS,国内同行也大多是在迭代Dense。这种模型参数固定,不需要复杂的路由选择或专家激活操作就可进行推理。它的缺点也很明显,便是资源消耗极大。
而闫俊杰看中的MoE模型可以用更少的计算量和内存需求实现计算,但其预训练挑战更高,在微调阶段容易出现泛化能力不足,导致过拟合等问题。
“当时MiniMax做MoE时,内部曾失败了两次,到第三次才成功。闫俊杰明确表示过,如果第三次再失败,可能公司就挂了。因为他把全部的算力资源都堆上去了,最后他赌赢了,也证明了这个技术路线是成功的。”徐飞说。
2024年1月,MiniMax上线了国内首个MoE大模型abab,紧接着又在2024年4月推出了abab 6.5系列模型,并开始用MoE架构进行大规模商业化部署。如今,MoE架构已经彻底取代了稠密架构成为大模型领域的行业共识。
2024年下半年,MiniMax又做了一次大胆改进,便是基于MoE+Linear Attention(线性注意力机制)技术,训练新一代模型MiniMax-01。
这项新型架构能更加高效地训练海量数据,风险也显而易见。闫俊杰在接受采访时坦言:“如果我们在竞争中打不赢,就应该被淘汰,没有其他选择。”
“所以严格说来,MiniMax并不是在DeepSeek之后调整的战略。至少是去年Q3后,他就已经将核心目标调整成‘模型优先’了,追求研发更性能、更强、更好的季度模型是它优先考虑的对象。闫俊杰认为,更好的模型,才能衍生出更好性能的产品。”徐飞说。
03、年入7000万美元,商业化挑战仍严峻
DeepSeek展开大模型新故事后,“六小虎”也都有了新的剧情。零一万物基本放弃了预训练模型,百川智能则专注于医疗垂类赛道。然而做不做基座大模型,仍是评判AI公司是否坚信AGI之路,是否有资格参与第一梯队角逐的核心标准。
加强技术迭代能力的同时,“AI一天,人间一年”的商业化之困也拷问着各家的模式选择与融资能力。
某AI创企产品商业化负责人徐坤对《财经天下》表示,“今年AI产品的商业化要比前两年更困难。模型采购已经趋近饱和、内卷,各家企业需要的是能有助于收益增长、避险、安全等切实的应用落地。需要AI公司提供更多具备行业know-how的成型产品或解决方案”。
相对而言,MiniMax的产品更聚焦于付费意愿更强的海外市场。其推出的模型或产品,都会同步在海外上线,并率先推广。
“海外市场和国内有两大差异:付费意愿高,Saas模式更成熟。国内AI to B回款困难,除了大基建类项目落地,在消费增长率、效率方面很难帮企业收到钱,也就很难拿到合同回款,想复刻海外交付->标准化->产品化->增长的路径很难实现。做to C类业务,最直接的好处就是付费意愿高。”
目前,MiniMax的绝大部分收入来自其海外明星产品Talkie。2024年媒体报道,这款主打AI陪伴的应用曾跻身美国免费娱乐类App下载榜第5名 ,月活突破1100万,其中超过一半为美国用户。
相关人士对《财经天下》透露, MiniMax去年to B端调用Token的API比例很少。“如果不是靠海外的Talkie,营收会很难看。”今年MiniMax-01模型上线一个月后,公司负责大模型to B商业化的合伙人兼副总裁魏伟便被曝出离职,也引发了业界对于MiniMax商业化能力的猜测。
相关人士表示,Talkie入局较早,产品体验更好,这让MiniMax上半年收入更多集中于to C端。今年3月开始,MiniMax将原“海螺AI”更名为“MiniMax”,也是希望强化品牌认知,“但目前公司to B产品和销售能力仍旧较弱”。
6月19日,视频生成模型Hailuo 02的会员收费制引发舆论关注,其中,最高档的至臻版会员收费10788元/年,相当于每月899元,用户需付费才可使用完整视频生成功能。由于定价过高,引发用户强烈抗议,MiniMax登上了微博热搜。
对此,MiniMax回应表示,“Hailuo 02模型官方价格显著低于Runway、可灵等国内外同类产品,在提升创作质量的基础上实现了行业底价”。
“六小虎”的未来将何去何从,金沙江创投主管合伙人朱啸虎曾有“暴论”输出:最好的归宿便是被大厂并购。估值、账面现金、IPO速度将是接下来对几家公司的关键考验。
“有没有10亿美金在账面上‘趴’着是一个硬门槛,没有的话我们认为就是非常危险的。”徐飞说。
据其透露,MiniMax目前并不缺钱。有趣的是,MiniMax官方从未主动披露过任何融资信息。最后一笔公开可查的信息是在2024年3月,MiniMax获得由阿里领投的6亿美元A轮融资,投后估值25亿美元。
但徐飞透露,实际上“去年MiniMax融资动作挺多的,只是不愿意披露。现在也还在洽谈新的投资机构”。机构的表现也都很积极,据其了解,某家美元VC便专门为MiniMax募了一只数千万元的专款项目投了进去。
今年4月,智谱也获得了新融资并宣布正式启动IPO进程。接下来对于MiniMax来说,除了在海外C端,如何打开国内B端的商业化规模,将是其能否走向资本市场的重要考验。
公开信息显示,目前MiniMax已经和高途、阅文、极狐汽车达成合作。其中,阅文有声书借助Speech-02,可将小说转化为有声内容。高途教育则把Speech-02应用到在线课程中,用语音讲解知识点。
(文中李响、徐坤、徐飞、陈奕均为化名)
(作者 | 豆蔻,编辑 | 李不清,图片来源 | 视觉中国,本内容来自财经天下WEEKLY)
来源:财天COVER