阿里发布全球最强开源模型Qwen3,惊喜与现实并存

360影视 动漫周边 2025-05-04 08:35 3

摘要:尽管Qwen3在多个基准测试中表现出色,但在实际应用场景中,它仍面临一些挑战,与顶尖闭源模型相比仍有差距。本文将深入探讨Qwen3的性能表现、优势与不足,以及其对AI行业的影响。

尽管Qwen3在多个基准测试中表现出色,但在实际应用场景中,它仍面临一些挑战,与顶尖闭源模型相比仍有差距。本文将深入探讨Qwen3的性能表现、优势与不足,以及其对AI行业的影响。

作为2025年,国内巨头中第一家发布下一代大模型的玩家,阿里Qwen3吊足了AI圈的眼球。

现在大模型更新基本集中在二代半,GPT-4.5和GPT-4o为代表,Claude 3.7 sonnet、近期刚更新的文心4.5 Turbo ,都具有非常显著的AI 特性,但并不足以称之为换代。

阿里Qwen3则呈现了下一代模型的一些标准,具有以下四种特性:混合推理模型,实现自动快慢思考;模型内置Agent+MCP,垂直场景开发更易用;8款尺寸全覆盖,旗舰还是移动端都可适配;更多语言支持,真正支持全球化开源。

鲸哥详细了解下这次发布的模型,一共有8款不同尺寸,分别是6款Dense模型以及2款MoE模型,Qwen3 模型以更小的规模实现了对更大体量上一代模型的超越,性价比强无敌。

值得关注的是,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,超越了DeepSeek R1、OpenAI o1 o3mini、Grok 3等国内外顶尖大模型,和Gemini 2.5 Pro略有差距。

然后Qwen采用 Apache 2.0 许可 ,模型能力已经超越 Meta Llama 和Mistral,而且Qwen系列衍生模型全球已经超过10万个,现在可以说是全球最好的开源模型。

不过最强开源并非无敌,在强堆预训练数据下,Qwen3 使用的数据量是Qwen2.5两倍,达到了约 36 万亿个 token,实现了一些雄心壮志,但也有一些现实需要面对。毕竟在训练数据量同样是30T以上的级别中,Llama 4坊间评价已经扑街。

Qwen3在很多方面,对最强闭源模型也没有优势。通过更多场景测评,我们能更了解这款“强大的模型”。

首先是一个在DeepSeek中,很受大家喜欢的能力,就是制定学习计划表格并导出,通义也实现了相应的功能,从Html代码到预览呈现,以及Excel下载。

在写作能力上,先点了深度思考模式,文章内容深度并没有体现,点击联网模式后,文章内容提到了很好的升级。这个主题下写作,Qwen也认为饿了么有边缘化的危机,就没截全。

从结尾看总结写的也不错,在国产AI助手中写的算顶尖行列。在生成报告方面,要求Qwen3生成兼具美观的报告,它选择生成了Markdown格式,最终的效果如下图。

从生成内容质量看,距离现在的Deepresearch产品也有距离。

在可视化网页方面,此前鲸哥经常用一套优化的提示词做秀图。

上面是DeepSeek V3生成的效果,下图是Qwen 3生成的效果,对文章结构处理和审美理解都差一点意思。

在代码生成方面,也有很多的进步空间,这里是给了提示词:生成一个星级旅游网页,赛博朋克风格,背景是无垠宇宙,一艘飞船中间有输入旅行地址框。

做高考数学题也不在话下,利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

Qwen3这次传说中的多模态没上,超长上下文还要补课。

整体来看,Qwen更多的惊喜试是相较过去自己,能力差不多实现30%的升级,而且是全家桶便宜且开源,以及支持Agent和MCP,企业落地更多场景更方便,对于大模型再企业端落地有很大促进作用。

但是在很多用户应用场景下,能力升级但没达到预期惊喜。尤其代码等场景下,举例DeepSeek V3和Claude 3.7还有不少的距离。没能全方位超越闭源模型,并不意味着通义App不好用。长短思考自动切换,内置APP生成,以及视频和图片生成能力,在一众国产AI助手中还,通义App还是那个更丝滑和更全能的助手。

来源:人人都是产品经理

相关推荐