卷疯了,阿里发布新模型Qwen2.5,宣称超越DeepSeekV3

360影视 2025-01-31 18:50 2

摘要:10天前,DeepSeek新模型的发布,引起美国AI圈和金融圈一度恐慌,搞得美股大跌,扎克伯格呼吁美国加紧封锁中国AI技术,不少黑客也拼命攻击,使其最近注册都比较费事。

原创:锦鲤燕 如有不妥请联系删除

10天前,DeepSeek新模型的发布,引起美国AI圈和金融圈一度恐慌,搞得美股大跌,扎克伯格呼吁美国加紧封锁中国AI技术,不少黑客也拼命攻击,使其最近注册都比较费事。

原来恐慌的部分原因是,其性能比肩gpt-4O,但其成本不足其10分之一。

为什么成本这么低了?原来是基于Moe架构。

于是乎,在海外还没回过神,恐惧于DeepSeek的影响时,阿里放出了Qwen2.5-Max,又一个MOE模型的炸弹。

作为一个专注AI科技领域分享的博主,今天锦鲤燕就来和大家分享下这款新的模型。

1

1

一、功能介绍

这款Qwen2.5-Max模型是阿里云旗下的,于大年初一最新发布,为啥说重磅炸弹,主要其在Moe架构中,Qwen是规模最大的一个,超20万亿Tokens,且其新版本Max版,意味和手机一样是顶配版。

其宣称在72国际权威评测中全面超越国内爆款模型DeepSeek-V3,部分性能比肩GPT-4Turbo。

简单说“性能更牛,算力更节约”。

DeepSeek用的是Moe模型,阿里的Qwen用的还是Moe模型,当然最大的开源稠密模型Meta的LLaMA底座也是这个。

1

二、Qwen 2.5从追赶到领跑

1、参数方面

基础版Qwen 2.5参数规模对比以前Qwen 2 突破3000亿,采用了MOE架构。

整合视觉、语言、文本等多模态,支持单次百万token级上下文

2、性能方面:

中文理解方面,超过DeepSeek-V383.5以87.3分领先。CEVAL基准

代码生成方面,接近gpt-4的81.7%,达76.8%。HumanEval。

3、应用场景方面:

模拟API攻击链,根据其内部测试,生成防御系统准确率达91%。

可以通过代码语义分析,将发现漏洞效率提高3倍。

1

三、使用指南

1、直接使用

如果我们想使用的话,可以直接用Qwen Chat对话,其支持artifacts和搜索功能。还有图像和视频生成功能。

网页聊天:https://chat.qwenlm.ai/

想用API也挺简单,我们只要注册阿里云账号,开通大模型服务,创建密钥就可以啦。

而且其API完全兼容OpenAI的接口。即我们可以导入OpenAI包,设置base_url指向阿里云,其他用途和OpenAI也是一样。

而且据网友反映,其一个简单的提示词就可以生成一个包含球体旋转、碰撞检测等完整的3D动画系统。

2、本地部署

部署也是很方便的,开发者可以在ai-gradio 上使用 Qwen2.5-Max,用简单的代码就可以搭建一个完整的开发环境。

安装指令:pip install --upgrade "ai-gradio[qwen]"

示例代码:

Demo:https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo

1

四、结语

如果说DeepSeek V3的横空出世展现了中国AI的锐度,那么本次阿里的突破则体现了产业生态的深度进化。我们有理由期待,继DeepSeek之后的中国AI资产新一轮重估,中国科技,雨后春笋!

好戏还在后头了!

来源:逛遍临沂

相关推荐