摘要:思考模式:面对复杂数学推导(如 AIME25 测评 81.5 分)、代码生成(LiveCodeBench 评测 70 分)等任务时,模型会通过多步骤推理输出详细过程,支持最高 38k token 的动态思考预算。开发者可通过/think指令逐轮控制模式,甚至在
Qwen3 首创「混合推理模式」,将人类认知科学中的「双系统理论」注入 AI 设计。
思考模式:面对复杂数学推导(如 AIME25 测评 81.5 分)、代码生成(LiveCodeBench 评测 70 分)等任务时,模型会通过多步骤推理输出详细过程,支持最高 38k token 的动态思考预算。开发者可通过/think指令逐轮控制模式,甚至在多轮对话中无缝切换。非思考模式:在简单问答、对话交互场景下,模型可实现毫秒级响应,推理成本仅为思考模式的 1/5。通过/no_think指令禁用深度推理,显著提升交互效率。:模型会根据任务复杂度自动分配计算资源,例如在金融风险评估中,复杂逻辑链触发思考模式,而常规查询则进入非思考模式,整体算力消耗降低 40%。旗舰模型 Qwen3-235B-A22B 采用混合专家(MoE)架构,总参数量 2350 亿,但每次推理仅激活 220 亿参数:
性能碾压:在数学、代码、通用能力基准测试中,超越 DeepSeek-R1、OpenAI-o1 等模型,逼近谷歌 Gemini-2.5-Pro。例如,Qwen3-235B-A22B 在 AIME25 测评中以 81.5 分刷新开源纪录,代码生成能力超越 Grok3。成本暴跌:部署成本仅为 DeepSeek-R1 的 25%-35%,显存占用降低至 1/3,4 张 H20 显卡即可运行满血版。小型 MoE 模型 Qwen3-30B-A3B 激活参数仅为 QwQ-32B 的 10%,性能却更优。架构创新:MoE 模型动态激活参数,Dense 模型参数效率提升 50%。例如,Qwen3-32B 性能超越 Qwen2.5-72B,而参数量仅为其一半。119 种语言支持:覆盖印欧语系、汉藏语系等小众语言(如粤语、斯瓦西里语),实现跨语言对话、翻译的无缝衔接。例如,Qwen3-235B-A22B 可自动识别用户语言并切换响应模式。Agent 增强:在 BFCL 评测中得分 70.8,支持 MCP 协议和 Qwen-Agent 框架,可自动调用 API、执行代码。通过 Qwen3-235B-A22B 可一键完成 GitHub 项目分析、生成可视化图表,降低智能体开发门槛。Qwen3 开源 8 款模型,形成「轻量 - 企业 - 云端」的完整生态:
端侧部署:0.6B/1.7B 模型支持手机 APP,4B 模型适配车载场景。例如,Qwen3-4B 在手机端可实时翻译、生成代码。企业级应用:8B/14B/32B 模型在数据分析、流程自动化中表现优异,性能较前代提升 50%。Qwen3-32B 可跨级超越 Qwen2.5-72B,适合大规模企业部署。云端旗舰:235B-A22B MoE 模型在超算中心实现千亿级参数推理,支持 128K 超长上下文,满足科研和金融等领域的复杂需求。数学能力:在 AIME25 测评中,Qwen3-235B-A22B 以 81.5 分刷新开源纪录,逼近 Gemini-2.5-Pro 的 86.7 分。代码生成:LiveCodeBench 评测突破 70 分,超越 Grok3,适合复杂软件工程开发。人类对齐:ArenaHard 测评 95.6 分,超越 OpenAI-o1,生成内容更符合人类偏好。数据规模:预训练数据达 36 万亿 token,是 Qwen2.5 的两倍,涵盖 PDF 文档解析、STEM 教材、代码合成数据。通过 Qwen2.5-Math 和 Qwen2.5-Coder 生成合成数据,提升数学和代码能力。四阶段训练:通过长思维链冷启动、强化学习、模式融合、通用优化,模型在推理与响应间实现完美平衡。例如,在 STEM 领域,Qwen3 Dense 模型性能优于更大的 Qwen2.5 模型。架构优化:MoE 模型动态激活参数,Dense 模型参数效率提升 50%。例如,Qwen3-32B 性能超越 Qwen2.5-72B,而参数量仅为其一半。免费商用:全系列模型采用 Apache 2.0 协议,企业可直接用于商业项目。政策友好:支持中文、阿拉伯语等非英语场景,契合「一带一路」市场需求。例如,Qwen3-235B-A22B 可自动识别阿拉伯语并生成符合当地政策的内容。工具链完善:与 Hugging Face、vLLM、Ollama 等框架深度兼容,提供 Qwen-Agent 开发套件。开发者可通过 Qwen-Agent 快速构建智能体,降低编码复杂性。python
# 通过vLLM部署APIfrom vllm import LLMllm = LLM(model="Qwen/Qwen3-30B-A3B", enable_reasoning=True)outputs = llm.generate("如何优化MoE模型推理效率?")Qwen-Agent 框架:python
from qwen_agent import QwenAgentagent = QwenAgent(tools=["git_clone", "data_analysis"])agent.run("分析GitHub项目性能瓶颈")微调指南:python
from peft import LoraConfig, get_peft_modelmodel = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-14B")peft_config = LoraConfig(r=8, lora_alpha=32, target_modules=["q_proj", "v_proj"])model = get_peft_model(model, peft_config)评测工具:使用qwen-eval库复现 AIME25、LiveCodeBench 等测评。例如,在终端输入qwen-eval --model Qwen3-235B-A22B --benchmark AIME25即可运行测评。性能层面:235B MoE 模型在数学、代码领域超越 DeepSeek-R1,逼近闭源顶尖水平。成本层面:部署成本降至同类模型的 1/3,显存占用降低至 1/3,加速 AI 普惠。生态层面:开源 200 余个模型,全球下载量超 3 亿次,衍生模型数突破 10 万。无论是开发者、企业还是研究者,Qwen3 都提供了「性能 - 成本 - 灵活性」的最优解。现在,立即行动,抢占 AI 开源生态的制高点!
来源:AI码力