美团首个开源大模型来了——LongCat-Flash(龙猫)!

360影视 欧美动漫 2025-09-03 10:14 1

摘要:在人工智能大模型领域持续升温的当下,又一位重磅玩家加入战局。9月1日,美团正式发布并开源其首个大模型LongCat-Flash,中文名“龙猫”。这一5600亿参数的混合专家(MoE)模型,凭借独特设计和亮眼性能,迅速吸引了全球AI爱好者和行业人士的目光。

在人工智能大模型领域持续升温的当下,又一位重磅玩家加入战局。9月1日,美团正式发布并开源其首个大模型LongCat-Flash,中文名“龙猫”。这一5600亿参数的混合专家(MoE)模型,凭借独特设计和亮眼性能,迅速吸引了全球AI爱好者和行业人士的目光。

LongCat-Flash采用创新性混合专家模型架构,其核心亮点在于“零计算专家(Zero-Computation Experts)”机制。传统模型在处理任务时,不论难易均需激活全部参数,而龙猫可依据上下文动态分配计算资源,每个Token仅激活186亿 - 313亿参数,平均约270亿 。这就好比一个智能工厂,面对简单生产任务时,仅调动少量核心设备就能高效完成,避免了全面开工造成的资源浪费,极大提升了计算效率。

层间铺设的跨层通道也为模型增色不少,让MoE通信与计算得以并行。以往通信环节常成为模型训练和推理的瓶颈,如今这一设计如同为信息传输开辟了高速公路,大大缩短了耗时。配合底层定制优化,LongCat-Flash仅用30天便完成高效训练,且在H800上实现单用户每秒100+ tokens的推理速度,输出成本低至5元/百万Token,在速度与成本上双双领先同类模型。

经过多项权威基准测试的检验,LongCat-Flash作为非思考型基础模型,性能表现可圈可点。在通用领域知识测试中,ArenaHard-V2基准测试成绩为86.50,位列第二;MMLU得分为89.71,CEval得分为90.44 ,这些成绩使其与国内领先模型不相上下,且参数规模更小,尽显高效。

智能体任务堪称LongCat-Flash的“拿手好戏”。在τ2-Bench基准测试中,即便与参数规模更大的模型相比,它也脱颖而出;复杂场景下的VitaBench测试里,其以24.30的高分拔得头筹 ,展示出强大的工具使用能力与复杂场景处理能力,能够灵活调用各类工具,如同智能助理一般高效完成任务。

编程领域,TerminalBench中39.51的得分使其位列第二,在SWE-Bench-Verified中得分为60.4,反映出其在实际智能体命令行任务和软件工程师能力验证方面的出色表现。指令遵循测试中,LongCat-Flash更是实力碾压,在IFEval、COLLIE和Meeseeks-zh等基准测试中均斩获佳绩 ,充分证明其能精准理解并执行复杂细致的指令。

美团此次选择将LongCat-Flash开源,无疑为全球AI生态注入了新活力。模型在Github、Hugging Face平台同步开源,并采用MIT License,允许用户利用模型输出,通过模型蒸馏等方式训练其他模型。这一举措打破了技术壁垒,让全球学术界和产业界的研究者、开发者能够自由使用、探索和优化模型,促进技术交流与创新,有望催生出更多基于龙猫模型的应用与解决方案,推动AI技术在各领域的落地生根。

从美团自身战略布局来看,大模型的发布是其在AI领域主动进攻的关键一步。此前,美团创始人兼CEO王兴就曾表示美团在AI领域的战略是主动进攻,而非被动防守,且每年在AI上投入超百亿元 。LongCat-Flash的诞生,不仅是技术实力的彰显,未来还有望深度赋能美团的本地生活服务业务,从智能客服、配送路径优化到商家运营辅助等多个环节,提升服务效率与用户体验,构建起更具竞争力的业务生态。

随着LongCat-Flash的登场,大模型赛道竞争愈发激烈。但这种竞争并非零和博弈,而是推动行业进步的强大动力。未来,在众多模型百花齐放、百家争鸣的态势下,AI技术将不断突破创新,为社会各领域带来更多惊喜与变革,我们拭目以待。

来源:阿峰故事会

相关推荐