卷疯了，阿里发布新模型Qwen2.5，宣称超越DeepSeekV3

摘要：10天前，DeepSeek新模型的发布，引起美国AI圈和金融圈一度恐慌，搞得美股大跌，扎克伯格呼吁美国加紧封锁中国AI技术，不少黑客也拼命攻击，使其最近注册都比较费事。

原创：锦鲤燕如有不妥请联系删除

10天前，DeepSeek新模型的发布，引起美国AI圈和金融圈一度恐慌，搞得美股大跌，扎克伯格呼吁美国加紧封锁中国AI技术，不少黑客也拼命攻击，使其最近注册都比较费事。

原来恐慌的部分原因是，其性能比肩gpt-4O，但其成本不足其10分之一。

为什么成本这么低了？原来是基于Moe架构。

于是乎，在海外还没回过神，恐惧于DeepSeek的影响时，阿里放出了Qwen2.5-Max，又一个MOE模型的炸弹。

作为一个专注AI科技领域分享的博主，今天锦鲤燕就来和大家分享下这款新的模型。

一、功能介绍

这款Qwen2.5-Max模型是阿里云旗下的，于大年初一最新发布，为啥说重磅炸弹，主要其在Moe架构中，Qwen是规模最大的一个，超20万亿Tokens，且其新版本Max版，意味和手机一样是顶配版。

其宣称在72国际权威评测中全面超越国内爆款模型DeepSeek-V3，部分性能比肩GPT-4Turbo。

简单说“性能更牛，算力更节约”。

DeepSeek用的是Moe模型，阿里的Qwen用的还是Moe模型，当然最大的开源稠密模型Meta的LLaMA底座也是这个。

二、Qwen 2.5从追赶到领跑

1、参数方面

基础版Qwen 2.5参数规模对比以前Qwen 2 突破3000亿，采用了MOE架构。

整合视觉、语言、文本等多模态，支持单次百万token级上下文

2、性能方面：

中文理解方面，超过DeepSeek-V383.5以87.3分领先。CEVAL基准

代码生成方面，接近gpt-4的81.7%，达76.8%。HumanEval。

3、应用场景方面：

模拟API攻击链，根据其内部测试，生成防御系统准确率达91%。

可以通过代码语义分析，将发现漏洞效率提高3倍。

三、使用指南

1、直接使用

如果我们想使用的话，可以直接用Qwen Chat对话，其支持artifacts和搜索功能。还有图像和视频生成功能。

网页聊天：https://chat.qwenlm.ai/

想用API也挺简单，我们只要注册阿里云账号，开通大模型服务，创建密钥就可以啦。

而且其API完全兼容OpenAI的接口。即我们可以导入OpenAI包，设置base_url指向阿里云，其他用途和OpenAI也是一样。

而且据网友反映，其一个简单的提示词就可以生成一个包含球体旋转、碰撞检测等完整的3D动画系统。

2、本地部署

部署也是很方便的，开发者可以在ai-gradio 上使用 Qwen2.5-Max，用简单的代码就可以搭建一个完整的开发环境。

安装指令：pip install --upgrade "ai-gradio[qwen]"

示例代码：

Demo：https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo

四、结语

如果说DeepSeek V3的横空出世展现了中国AI的锐度，那么本次阿里的突破则体现了产业生态的深度进化。我们有理由期待，继DeepSeek之后的中国AI资产新一轮重估，中国科技，雨后春笋！

好戏还在后头了！

来源：逛遍临沂

标签：模型 moe deepseekv3

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!