摘要:10天前,DeepSeek新模型的发布,引起美国AI圈和金融圈一度恐慌,搞得美股大跌,扎克伯格呼吁美国加紧封锁中国AI技术,不少黑客也拼命攻击,使其最近注册都比较费事。
原创:锦鲤燕 如有不妥请联系删除
10天前,DeepSeek新模型的发布,引起美国AI圈和金融圈一度恐慌,搞得美股大跌,扎克伯格呼吁美国加紧封锁中国AI技术,不少黑客也拼命攻击,使其最近注册都比较费事。
原来恐慌的部分原因是,其性能比肩gpt-4O,但其成本不足其10分之一。
为什么成本这么低了?原来是基于Moe架构。
于是乎,在海外还没回过神,恐惧于DeepSeek的影响时,阿里放出了Qwen2.5-Max,又一个MOE模型的炸弹。
作为一个专注AI科技领域分享的博主,今天锦鲤燕就来和大家分享下这款新的模型。
1
1
一、功能介绍
这款Qwen2.5-Max模型是阿里云旗下的,于大年初一最新发布,为啥说重磅炸弹,主要其在Moe架构中,Qwen是规模最大的一个,超20万亿Tokens,且其新版本Max版,意味和手机一样是顶配版。
其宣称在72国际权威评测中全面超越国内爆款模型DeepSeek-V3,部分性能比肩GPT-4Turbo。
简单说“性能更牛,算力更节约”。
DeepSeek用的是Moe模型,阿里的Qwen用的还是Moe模型,当然最大的开源稠密模型Meta的LLaMA底座也是这个。
1
二、Qwen 2.5从追赶到领跑
1、参数方面
基础版Qwen 2.5参数规模对比以前Qwen 2 突破3000亿,采用了MOE架构。
整合视觉、语言、文本等多模态,支持单次百万token级上下文
2、性能方面:
中文理解方面,超过DeepSeek-V383.5以87.3分领先。CEVAL基准
代码生成方面,接近gpt-4的81.7%,达76.8%。HumanEval。
3、应用场景方面:
模拟API攻击链,根据其内部测试,生成防御系统准确率达91%。
可以通过代码语义分析,将发现漏洞效率提高3倍。
1
三、使用指南
1、直接使用
如果我们想使用的话,可以直接用Qwen Chat对话,其支持artifacts和搜索功能。还有图像和视频生成功能。
网页聊天:https://chat.qwenlm.ai/
想用API也挺简单,我们只要注册阿里云账号,开通大模型服务,创建密钥就可以啦。
而且其API完全兼容OpenAI的接口。即我们可以导入OpenAI包,设置base_url指向阿里云,其他用途和OpenAI也是一样。
而且据网友反映,其一个简单的提示词就可以生成一个包含球体旋转、碰撞检测等完整的3D动画系统。
2、本地部署
部署也是很方便的,开发者可以在ai-gradio 上使用 Qwen2.5-Max,用简单的代码就可以搭建一个完整的开发环境。
安装指令:pip install --upgrade "ai-gradio[qwen]"
示例代码:
Demo:https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
1
四、结语
如果说DeepSeek V3的横空出世展现了中国AI的锐度,那么本次阿里的突破则体现了产业生态的深度进化。我们有理由期待,继DeepSeek之后的中国AI资产新一轮重估,中国科技,雨后春笋!
好戏还在后头了!
来源:逛遍临沂