摘要:阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)与G42公司联合推出了一款令人耳目一新的产品——K2 Think。这款仅有320亿参数的开源AI推理系统,以其卓越的参数效率和惊人的推理速度,刷新了人们对AI模型性能的认知。
阿联酋的穆罕默德·本·扎耶德人工智能大学(MBZUAI)与G42公司联合推出了一款令人耳目一新的产品——K2 Think。这款仅有320亿参数的开源AI推理系统,以其卓越的参数效率和惊人的推理速度,刷新了人们对AI模型性能的认知。
这个震惊世界的模型,其基础构建于阿里巴巴开源的Qwen 2.5-32B模型之上。
逆天改命,全靠这六套独门绝技
K2 Think之所以性能出众,靠的是一套组合得天衣无缝、堪称“六脉神剑”的独门绝技。
长思维链监督式微调。K2 Think通过大量精心设计的“链式推理”数据进行训练,强迫模型必须一步一步、有条有理地思考,而不是直接跳到结论。官方新闻稿里说,这项技术是为了“深化逻辑层次”,让模型在解决复杂问题时,能像人类学霸一样,展现出清晰的问题分析、策略制定、逐步推理和结果验证的全过程。
可验证奖励的强化学习(RLVR)。传统强化学习有个痛点,就是依赖人类来给AI的表现打分,告诉你“你这样做是对的”或者“那样做是错的”。K2 Think在处理数学这类有明确对错的问题时,彻底抛弃了这种的模式。它用了一套自动验证系统。官方说法是“透过‘可验证奖励的强化学习’提升处理复杂难题的准绳度”。答案对了,就给个大大的奖励;错了,就明确告诉它错在哪。
代理规划。可以理解为给AI配了个“军师”。遇到一个复杂的难题,不是让主模型撸起袖子就上,而是先让一个“规划代理”出马。这个军师会先审题,把问题拆解成几个小部分,提炼出关键点,再制定一个详细的解题大纲。官方描述是,其“‘代理规划’功能协助模型在推理前有效分解复杂挑战”。等军师把作战计划都安排得明明白白了,再交给主模型去执行具体的推理和计算。
测试时扩展。这相当于给模型一个“智囊团”。在推理的时候,不是只让模型想出一个答案,而是采用一种适度的“Best-of-N”采样策略(这里的N等于3),让它针对同一个问题,生成三个不同的候选答案。然后,再从这三个答案里,挑出那个最靠谱的。
推测解码。这一招,就是K2 Think速度快到飞起的秘密武器。传统的AI生成内容,是一个字一个字往外蹦的,我们称之为串行解码,效率比较低。而推测解码,则是在AI肚子里并行地生成和验证好几个可能的后续答案片段,然后选一个最合适的直接输出。这就像是你写文章,不是一个字一个字地敲,而是一次性想好一整句话甚至一段话再打出来。
推理优化硬件。K2 Think的座驾,是来自Cerebras公司的晶圆级引擎(Wafer-Scale Engine,WSE)。这可不是普通的显卡,而是专门为AI计算量身打造的“性能猛兽”。Cerebras的官方新闻稿直接证实,K2 Think在这套硬件上,推理速度达到了惊人的每秒2000 token,并且比传统的图形处理器部署方案快了整整六倍以上。
数据出来遛遛
K2 Think的真实表现到底怎么样?在各大权威的基准测试中,交出了一份让所有人都大跌眼镜的成绩单。
前面提到了,在Cerebras WSE这个“超级跑车”的加持下,K2 Think的推理速度飙到了每秒两千个token。这是什么概念?意味着它生成文本的速度快得令人发指,几乎可以做到实时响应。对于很多需要即时交互的AI应用场景,比如智能客服、实时翻译等,这种速度就是决定用户体验的生命线。
数学推理非常考验模型的逻辑思维和精确计算能力。K2 Think在这里,直接杀疯了。它在一系列顶级的数学竞赛基准测试中,取得了同等参数量开源模型的最佳成绩。
一个320亿参数的模型,在数学这种高智商领域甚至把一众比它大得多的模型按在地上摩擦,这画面太美不敢看。
除了数学,K2 Think在其他领域的表现同样可圈可点。在代码生成(LiveCodeBench v5)和科学推理(GPQA-Diamond)这两个同样非常重要的基准测试上,它也拿到了相当不错的分数。
能力越大,责任越大。K2 Think的开发团队对模型进行了系统性的安全评估。
综合来看,K2 Think在Safety-4 Macro安全评估中拿到了0.75的平均分,这是一个相当高的水平。
掀桌子!谁说越大就一定越好?
与规模定律(Scaling Law)相比,它是无与伦比的“参数效率”。只有320亿的参数,却能做到那些几千亿参数模型才能做到的事。Cerebras的官方新闻稿里甚至直接点名,“K2 Think用小得多的身板,实现了和GPT-4、DeepSeek-V3.1这些顶级选手相媲美的性能”。
MBZUAI的校长兼大学教授Eric Xing对此的评价一针见血:“由MBZUAI基础模型研究所开发的K2 Think,是全球AI研发社群的一大重要进展。我们透过完全透明的框架提供这些先进成果,正引领一个更具成本效益、可重现且负责任的AI新时代。”
而G42集团的行政总裁彭晓的话则更加直白:“K2 Think已将AI推理的典范从‘越大越好’成功转向‘越聪明越好’。……这次的成果证明了更小、更具资源效益的模型,其实力足以媲美最大型的推理系统,标志着新一轮AI创新浪潮的来临。”
更可贵的是,K2 Think选择全面开源,范围涵盖训练数据、参数权重,以及部署和测试时优化的软件代码。
在此之前,阿联酋已经推出了顶级的阿拉伯语大模型Jais,以及印地语、哈萨克语等多个模型。这种持续不断的投入和开放的姿态,正在让阿布扎比成为全球AI版图上一股不可忽视的新兴力量。
参考资料:
来源:算泥社区