阿里发布全球最强开源模型Qwen3，惊喜与现实并存

360影视动漫周边 2025-05-04 08:35 11

摘要：尽管Qwen3在多个基准测试中表现出色，但在实际应用场景中，它仍面临一些挑战，与顶尖闭源模型相比仍有差距。本文将深入探讨Qwen3的性能表现、优势与不足，以及其对AI行业的影响。

尽管Qwen3在多个基准测试中表现出色，但在实际应用场景中，它仍面临一些挑战，与顶尖闭源模型相比仍有差距。本文将深入探讨Qwen3的性能表现、优势与不足，以及其对AI行业的影响。

作为2025年，国内巨头中第一家发布下一代大模型的玩家，阿里Qwen3吊足了AI圈的眼球。

现在大模型更新基本集中在二代半，GPT-4.5和GPT-4o为代表，Claude 3.7 sonnet、近期刚更新的文心4.5 Turbo ，都具有非常显著的AI 特性，但并不足以称之为换代。

阿里Qwen3则呈现了下一代模型的一些标准，具有以下四种特性：混合推理模型，实现自动快慢思考；模型内置Agent+MCP，垂直场景开发更易用；8款尺寸全覆盖，旗舰还是移动端都可适配；更多语言支持，真正支持全球化开源。

鲸哥详细了解下这次发布的模型，一共有8款不同尺寸，分别是6款Dense模型以及2款MoE模型，Qwen3 模型以更小的规模实现了对更大体量上一代模型的超越，性价比强无敌。

值得关注的是，旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，超越了DeepSeek R1、OpenAI o1 o3mini、Grok 3等国内外顶尖大模型，和Gemini 2.5 Pro略有差距。

然后Qwen采用 Apache 2.0 许可，模型能力已经超越 Meta Llama 和Mistral，而且Qwen系列衍生模型全球已经超过10万个，现在可以说是全球最好的开源模型。

不过最强开源并非无敌，在强堆预训练数据下，Qwen3 使用的数据量是Qwen2.5两倍，达到了约 36 万亿个 token，实现了一些雄心壮志，但也有一些现实需要面对。毕竟在训练数据量同样是30T以上的级别中，Llama 4坊间评价已经扑街。

Qwen3在很多方面，对最强闭源模型也没有优势。通过更多场景测评，我们能更了解这款“强大的模型”。

首先是一个在DeepSeek中，很受大家喜欢的能力，就是制定学习计划表格并导出，通义也实现了相应的功能，从Html代码到预览呈现，以及Excel下载。

在写作能力上，先点了深度思考模式，文章内容深度并没有体现，点击联网模式后，文章内容提到了很好的升级。这个主题下写作，Qwen也认为饿了么有边缘化的危机，就没截全。

从结尾看总结写的也不错，在国产AI助手中写的算顶尖行列。在生成报告方面，要求Qwen3生成兼具美观的报告，它选择生成了Markdown格式，最终的效果如下图。

从生成内容质量看，距离现在的Deepresearch产品也有距离。

在可视化网页方面，此前鲸哥经常用一套优化的提示词做秀图。

上面是DeepSeek V3生成的效果，下图是Qwen 3生成的效果，对文章结构处理和审美理解都差一点意思。

在代码生成方面，也有很多的进步空间，这里是给了提示词：生成一个星级旅游网页，赛博朋克风格，背景是无垠宇宙，一艘飞船中间有输入旅行地址框。

做高考数学题也不在话下，利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据，合成了包括教科书、问答对以及代码片段等多种形式的数据。

Qwen3这次传说中的多模态没上，超长上下文还要补课。

整体来看，Qwen更多的惊喜试是相较过去自己，能力差不多实现30%的升级，而且是全家桶便宜且开源，以及支持Agent和MCP，企业落地更多场景更方便，对于大模型再企业端落地有很大促进作用。

但是在很多用户应用场景下，能力升级但没达到预期惊喜。尤其代码等场景下，举例DeepSeek V3和Claude 3.7还有不少的距离。没能全方位超越闭源模型，并不意味着通义App不好用。长短思考自动切换，内置APP生成，以及视频和图片生成能力，在一众国产AI助手中还，通义App还是那个更丝滑和更全能的助手。

来源：人人都是产品经理

标签：模型开源 llama 闭源 qwen3

本文地址：https://news.43u.com.cn/a/1423463.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!