摘要:走进上海西岸艺术中心,巨幅电子屏上跳动着“模塑全球 无限可能”的标语,2月21日至23日举办的2025全球开发者先锋大会(以下简称GDC)的现场,汇聚无数开发者。
寻找下一个Transformer
作者/ IT时报记者 孙永会
编辑/ 郝俊慧 孙妍
走进上海西岸艺术中心,巨幅电子屏上跳动着“模塑全球 无限可能”的标语,2月21日至23日举办的2025全球开发者先锋大会(以下简称GDC)的现场,汇聚无数开发者。
DeepSeek效应下,开源AI市场正在形成一股洪流,开源亦成为GDC的焦点。工业和信息化部副部长熊继军在开幕式上指出,“要完善开源‘生态圈’,构建先进的开源服务体系”。上海市副市长陈杰强调,进一步完善开源开放生态系统,夯实“语料开放+模型开源”服务体系,不断壮大开源社区力量,推动基础模型、算法和数据资源的共享与开放。
智能硬件领域有哪些新成就?大模型开源后,相对闭源有哪些优势?《IT时报》记者在《开源共生:多模态大模型生态发展论坛》找寻问题的解决思路。
论坛当日,鸿合科技、惟一智能、弋途科技、全志科技、鱼亮科技、玩瞳科技、易思态科技等多家智能硬件企业与MiniMax(稀宇科技)共同成立“MiniMax智能硬件产业创新联盟”。
程序员和艺术家“双向奔赴”
22日,刚刚参加完论坛的Jason Lee在社交平台发布了一则动态:“开源与闭源,不是零和游戏,而是互惠共生,共同构成一个‘双螺旋动力环’,加速推动技术普惠的进程。”
Jason Lee是一名AI创作艺术家,近年来一直致力于电影级AI短片制作,代表作《灭绝》《鸦人国度》《黄金国度》,曾入选 Curious Refuge“The best AI Artists”等AIGC影视榜单,他坦言,AI是一剂催化剂,让计算机专业毕业的自己有了“创意平权”的机会。
开源正让越来越多的人成为开发者,随着程序员和艺术家在AI的赋能下双向奔赴,科学和艺术之间的“墙”正在被打破。
去年开始,MiniMax开发者社区负责人蔡佳人便发现,很多垂类开发者,比如教育、医疗、金融、广告营销等领域的从业人员,已经在用AI视频大模型做AI广告视频生成,还有一些法律界人士,开始利用AI做法律相关的咨询,AI正给传统行业注入更多的生机和活力。
高性能大模型开源成风
曾几何时,开源还是闭源,在全球范围内仍是一个备受争议的话题,但时至今日,答案似乎正在揭晓,尤其对国产大模型而言,“开源”蔚然成风。
本届GDC上,多家参会企业纷纷亮出自家最新的开源模型:商汤科技发布LazyLLM开源框架等产品;MiniMax带来今年1月发布并开源的新一代MiniMax-01系列模型,它是全球首个大规模应用线性注意力机制、突破传统Transformer架构的商用级别模型;阶跃星辰亦在会前发布全球参数量最大的开源视频生成大模型Step-video-T2V……
“DeepSeek让大家看到开源社区的胜利。把了不起的模型开源后,更多人得到机会,可以在这个模型上做更多了不起的事情。”香港科技大学校董会主席、美国国家工程院外籍院士沈向洋于2月22日的大会主题演讲中如是强调。
“底层模型一次重大迭代对产品带来的优化效果,远超在工程实现层面对产品‘雕花’。”MiniMax副总裁刘华表示,经过两年的发展,以Transformer架构为代表的稠密模型已经被放弃(因为任务长度和算力消耗呈平方关系,任务越长,算力需求越高),MoE成为大家共同的选择,而在未来两到三年里,类似GPT3.5到GPT4这样的技术突破再发生两次是高度可预期的,因此MiniMax对所有技术创新全面开源,“我们希望有更多的开发者一起探索非Transformer的底层架构,只有非Transformer的底层架构得到大家共识,被更多人应用,将来大模型才能处理越来越多更复杂的任务。”
不过,与会嘉宾也强调,开源和闭源并不是二选一的排他性选择,商业模式并不对立。
“闭源模型是一个产品,开源模型是一个工具。”HuggingFace中国区总经理王铁震表示,开源模型允许用户不断迭代和优化,通过后训练和模型蒸馏等方式,使其更加适应特定领域和需求,但作为一种工具,开源大模型的使用和维护需要一定的技术能力,而闭源模型则作为一种产品,更易于使用,只需调用API即可。
高拟人化智能硬件年内出现
“我的发言稿就在眼镜里,翻页通过手上的戒指完成,所以没纸质稿子,很轻松。”近日,杭州灵伴科技有限公司负责人祝铭明带火了AR眼镜——Rokid Glasses。在GDC现场,AI耳机、AI拍摄眼镜、智能无弦吉他,以及和Rokid Glasses有相同功能的AR眼镜等智能终端同样引人注目。
丰富的开发者生态让AI加速融入普通人的生活,C端市场可能迎来爆发前夜。
“它由原先的被动感知和被动执行,变成自主智能、自主思考,能想你所想,做你所做,在提前预知你预判的情况下,做对你有利的事情。”上海交通大学教授、曙光学者王琳定义了智能硬件。
鱼亮科技CEO廖奎华表示,自家产品融合了自研端侧的感知算法以及MiniMax的在线多模态大模型的核心能力,打造了多模态的智能硬件语音交互应用平台,在AI眼镜、新一代智能玩具以及各类硬件智能终端中已经有所应用。
不过,当前来看,智能硬件依然面临挑战,比如智能耳机要解决长上下文利用与响应速度的问题,而AI眼镜需要克服复杂声学环境的干扰。
但与会者基本形成的共识是,智能硬件能否普及取决于多模态大模型的能力。
乐观预期是,一年之内,多模态大模型的能力可以提升至当前的语言大模型水准,低成本的使用门槛和完全可接受的成本,可以让普通人也能顺利实用,从而实现多模态大规模使用。
“我觉得真正高拟人化的智能硬件,在一年以后完全有机会实现。”鱼亮科技CEO廖奎华认为,五年以后,端云混合架构的AI智能将会到来,一些超高拟人化的AI功能可以实现本地化部署,与一些高算力需求大模型的云端部署相融合,从而推动AI进入家庭和更多场景中。
排版/ 季嘉颖
图片/ 2025全球开发者先锋大会
E N D
来源:IT时报