摘要:昨天,全球最大AI开源社区HuggingFace发布的最新趋势榜单,排在前三的分别是DeepSeek-V3-0324、群核SpatialLM,以及通义千问Qwen2.5-Omni-7B,全部来自杭州,领先于英伟达、谷歌等公司模型。
杭州的程序员们赢麻了。
昨天,全球最大AI开源社区HuggingFace发布的最新趋势榜单,排在前三的分别是DeepSeek-V3-0324、群核SpatialLM,以及通义千问Qwen2.5-Omni-7B,全部来自杭州,领先于英伟达、谷歌等公司模型。
此前有网友戏称:在开源大模型领域,杭州正在“挑战”杭州。现在,杭州成了全球范围内少有的,同时拥有三个世界顶级开源模型的城市。
老手稳定发挥
新力量迅速崛起
排名第一和第三的开源大模型大家比较眼熟,分别来自深度求索和阿里巴巴。
排第一位的DeepSeek-V3-0324,是3月26日凌晨由DeepSeek将此前热门的基座模型DeepSeek-V3进行全新小版本迭代而来。
DeepSeek-V3-0324在推理能力、代码生成、中文写作、搜索能力等方面都实现了显著提升。根据官方报告,它不仅全面超越Claude-3.7-Sonnet和与Qwen-Max等同类型优质模型,在数学、代码类等相关评测集上胜过GPT-4.5。经过这些天的测试,有人发现,它的代码能力甚至已经超过了DeepSeek-R1。
新版 V3 模型的百科知识(MMLU-Pro, GPQA)、数学(MATH-500, AIME 2024)和代码任务(LiveCodeBench)表现均有提升
仅仅24小时后,阿里开源了首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,可以同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。
Qwen2.5-Omni-7B可以接近人类的多感官方式“立体”认知世界并与之实时交互。你可以像打电话或视频通话一样与Qwen聊天,他甚至还能识别音视频中人物情绪。在复杂任务中进行更智能、更自然的反馈与决策。
在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni-7B刷新业界纪录,全维度远超Google的Gemini-1.5-Pro等同类模型。从开源到登上榜单前三,只用了一天时间。
相比排在第一位的DeepSeek和第三位的Qwen,SpatialLM是个新兵蛋子。
SpatialLM来自因为“杭州六小龙”火出圈的群核科技。虽然在大模型领域资历是个新手,不过从发布、开源到登上榜单第二,也只用了不到10天的时间。
SpatialLM最早亮相于3月20日的英伟达GTC2025大会上,是群核科技自主研发的空间理解模型,能让AI更好地认识真实的三维世界。
SpatialLM 基于视频重建的3D结构化场景
比如,给SpatialLM“刷”一段视频,它就能生成物理正确的3D场景布景,像人类环顾四周环境就能理解背后的空间结构一样,能够基于从视频中提取的点云数据,准确认知和理解其中的结构化场景信息,并将它以脚本语言的形式呈现出来。
它的意义在于,突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,可以为时下火热的具身智能提供训练的虚拟空间。
SpatialLM运行原理
相互追赶也相互成就
在全球大模型圈,杭州一直是你追我赶的优等生一样的存在。
今年1月至今,DeepSeek发布并开源了两款大模型,分别火到全球的DeepSeek-R1,以及DeepSeek-V3更新而来的0324版本。很多网友开始在线催更V4和R2。
大厂出身的通义千的更新速度到了令海外开发者震惊的程度。1月至今,已经发布并开源了7款大模型。为了照顾海外的开发者,无一例外地,发布时间都选择了凌晨。
Qwen2.5-max上线时,有海外网友惊呼:一天一个模型,太疯狂了……
全球知名AI平台HuggingFace的工程师王铁震就曾发文:Qwen霸屏了HuggingFace开源大模型榜单前十。
实际上,阿里云是国内最早也是唯一开源自研大模型的大厂,也是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商。
自2023年8月以来,通义累计推出数十款不同类型的大模型,囊括大语言模型、多模态模型、数学模型和代码模型,多次登顶HuggingFace的Open LLM Leaderboard、司南OpenCompass等多个国内外权威大模型榜单,并多次冲上HuggingFace、Github的trending趋势榜单。
目前,海内外开源社区中Qwen的衍生模型数量已突破9万,超越了Meta(原Facebook公司)的Llama系列衍生模型,是目前世界最大的生成式语言模型族群。
不过,杭州的大模型圈虽然很卷,但互相追逐、一起探索前沿技术的同时,其实也是相互成就的过程。
DeepSeek官方曾透露,为了证明R1强大的推理能力可以快速移植到更小尺寸的模型上,将DeepSeek-R1的推理能力蒸馏给6个开源模型生成新模型。其中,4个模型就来自Qwen。基于Qwen-32B蒸馏的模型,在多项能力上实现了对标o1-mini的效果。
也正是因为DeepSeek的出圈,阿里巴巴在开源大模型领域的努力和沉淀,才被更多的人关注到。
这何尝不是一种相互成就。
打开技术大门
收获聪明人的礼物
开源,简单来说,就是把软件的源代码公开,为的是让更多人参与进来,共同去创造一个复杂软件。最典型的代表就是Linux操作系统和安卓系统。前者持续更新了近30年,涉及上千个国家和公司,前后有数万人参与。
在科技领域,开源不仅是一种行为,还成了精神图腾和文化现象,互联网平等、开放、合作、共享等特点就来自程序员们对开源精神孜孜不倦地追求。
对很多初创的科技公司来说,开源最直接的好处就是轻松“跳到巨人的肩膀上”。
比如,诞生在杭州的有鹿机器人就是典型。给清扫机器人装上“大脑”,这是浙江有鹿机器人科技有限公司创始人及CEO陈俊波的大胆创意,这个大脑就是基于Qwen-7B开发的。
陈俊波说,接入Qwen,能很快让机器人有语言交互和任务拆解执行能力,同时通过LLM的语言特征表达增强物理世界特征表达,从而让清扫机器人做高层的逻辑分析和任务规划,完成清洁任务。
这只是开源模型滋养的一个小小应用。截至去年9月中旬,通义千问开源模型Qwen系列的全球下载量超过4000万。
而在DeepSeek开源后,大量AI生态链上的企业可以低成本调用全球顶尖大模型的能力,加快对自身垂直模型的打磨,一举推动了全球AI产业的发展。同时,为印度等AI基础较弱的国家带来了技术变革的可能。在人类追逐AGI的漫长历程里,都是极具里程碑意义的一件事。
正如浙江大学上海高等研究院常务副院长、浙江大学本科生院院长吴飞所说,DeepSeek的开源之举将使得AI像水和电一样触手可及,为实现“时时、处处、人人可用的普遍智能”带来曙光。
对开源的科技公司来说,开源的好处可以用一句话来归纳:当你慷慨地打开技术大门后,全世界最聪明的大脑都会带着礼物来敲门。
这份礼物的核心是围着你转的全球生态。以人才资源为例,全球最大开源平台GitHub统计显示,顶尖开源项目贡献者最终加入原公司的比例高达43%。许多技术大牛为因为开源慕名而来,很可能因为某项重大贡献被开源方看中,从一个“编外人员”变成“全职高手”。
对阿里来说,一份开源礼物就来自苹果。借助Qwen,苹果可以为中国用户训练专属模型,提升硬件体验。
一座冉冉升起的
“开源大模型之城”?
如果说,此前的杭州是DeepSeek和阿里云Qwen两个世界级开源大模型的你追我赶,如今加上群核科技,一个刚加入大模型游戏就表现不俗的小弟,这场竞赛似乎越来越好玩了。
除了这三家,“六小龙”里的宇树科技去年年底开始就持续面向全球开源强化学习代码,以及Unitree G1机器人操作数据集,包括数据采集、学习算法、数据集和模型。
很早之前,宇树科技官方旗舰店就售卖他们自己编写的“国内首部四足机器人研究书籍”《四足机器人控制算法——建模、控制与实践》一书,配套有完整的开源代码。
除了这些在聚光灯下的科技公司,因为浓厚的程序员文化和由此带来的开源精神,在另外一个维度里,杭州本身就是一座具有开源精神的城市。
2002年,杭州提出“还湖于民”的口号,拆除了西湖景区的围墙,从此游客可以“自由访问”西湖。在做决策前,杭州市政府算过一笔账,得出了“241算法”,即游客多停留24小时,可以增加100亿综合收入,和开源里的“流量思维”不谋而合。
此后,西湖成了“共享共建共治”的典范,游客数量的上升激活了周边旅游产业,产生了生态协同效应。
得益于阿里、网易、海康威视等头部科技企业,杭州也是开发者和AI创业者最聚集的城市之一。
每年的云栖大会,已经成为全球几万名开发者的线下狂欢。而在线上,早已形成了服务超过800万开发者的AI大模型社区和精神家园。
2022年11月的云栖大会上,阿里云联合CCF开源发展委员会共同推出AI模型社区魔搭ModelScope,初衷是通过开源开放、社区共建的方式,降低AI模型使用门槛,推动中国大模型生态建设。
截至今年2月中旬,魔搭社区模型总量超过4万个,涵盖LLM、对话、语音、文生图、图生视频、AI作曲等多个领域。并且,魔搭已经服务超过1000万开发者——这一数据差不多是去年同期的3倍。
其中就包括百川智能、智谱AI、零一万物、度小满、Bilibili、小红书、Vivo、上海人工智能实验室、IDEA研究院、OpenI启智社区、浙江大学、东北大学、大连理工大学、华东理工大学、南方科技大学、北京智源研究院、北京大学袁粒项目组、香港中文大学openmmlab等。
来 源:九千光年编 辑:胡 睿一 审:乔俊璐二 审:林 欣三 审:庄 丽来源:青春杭州