Qwen3模型:思考模式与非思考模式的完美融合

360影视 国产动漫 2025-05-15 15:28 2

摘要:2025年4月29日,Qwen3系列模型开源,Qwen3-235B-A22B模型得分超过DeepSeek R1 671B 模型。但当时模型具体技术细节尚未透露,秘诀不得而知。

2025年4月29日,Qwen3系列模型开源,Qwen3-235B-A22B模型得分超过DeepSeek R1 671B 模型。但当时模型具体技术细节尚未透露,秘诀不得而知。

终于,今天Qwen3模型技术报告正式发布!

Qwen团队公开的这篇技术报告,详细介绍了开创性的混合推理模式、模型训练方法等。

想象一下,你有两位助手:一位深思熟虑,擅长解决复杂问题,但回答较慢;另一位反应敏捷,能迅速给出答案,但面对复杂问题时可能力不从心。在过去,你需要根据问题的难度选择不同的助手。而现在,Qwen3就像是这两位助手的完美结合体,能根据你的需要自由切换工作模式,在速度与深度之间找到最佳平衡。

Qwen3是一系列大型语言模型,设计目标是提升性能、效率和多语言能力。这个系列包含了两种不同架构的模型:密集型(Dense)和混合专家型(Mixture-of-Expert,简称MoE)。从参数规模上看,Qwen3模型家族涵盖了从0.6亿到2350亿不等的参数数量,满足不同场景下的应用需求。

Qwen3最引人注目的创新在于将"思考模式"和"非思考模式"整合到一个统一的框架中。"思考模式"专为复杂的、需要多步推理的任务设计,而"非思考模式"则适用于需要快速、基于上下文的回应。这种整合消除了在不同模型间切换的需要——比如从聊天优化模型(如GPT-4o)切换到专门的推理模型(如QwQ-32B)。用户可以根据查询需求或聊天模板动态切换模式,就像一个人能够根据问题的复杂性决定是快速回答还是深入思考一样。

此外,Qwen3还引入了"思考预算"机制。这就像是给模型分配"思考时间",允许用户在推理过程中根据任务复杂度自适应地分配计算资源。想象你在解决一个难题时,可以决定投入多少时间去思考——简单问题快速回答,复杂问题多花时间分析。这种机制使模型能够根据任务复杂性平衡延迟和性能,如同人类会根据问题的难度调整思考的深度和时间。

通过利用旗舰模型的知识,Qwen团队显著减少了构建小规模模型所需的计算资源,同时确保了这些小模型仍然具有高度竞争力的性能。这就像是一个经验丰富的老师能够高效地将知识传授给学生,让学生迅速掌握关键技能,而不必经历老师当初所有的试错过程。

实验评估表明,Qwen3在各种基准测试中都取得了出色的成果,包括代码生成、数学推理、智能体任务等领域,甚至能与更大的MoE模型和专有模型相媲美。这就像是一个体重较轻的拳击手,通过精湛的技巧和训练,能够与体重级别更高的对手平分秋色。

与其前身Qwen2.5相比,Qwen3将多语言支持从29种扩展到了119种语言和方言,通过改进的跨语言理解和生成能力,大大增强了全球可访问性。这相当于一位语言专家不仅掌握了主要国家的官方语言,还熟悉了众多地区方言,能与世界各地的人无障碍交流。

为了促进可重复性和社区驱动的研究与开发,所有Qwen3模型都在Apache 2.0许可下公开访问,让全球开发者和研究人员都能参与到这一技术的进步中来。

如果将Qwen3比作一辆汽车,那么其架构就是这辆车的发动机和传动系统。Qwen团队为不同性能需求的用户设计了多种"车型",从经济实用的小型车到性能强劲的豪华车,应有尽有。

Qwen3系列包括6个密集型模型和2个MoE模型。密集型模型包括Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B,参数量从0.6亿到32亿不等。而MoE模型则包括Qwen3-30B-A3B和Qwen3-235B-A22B,旗舰模型Qwen3-235B-A22B总共拥有2350亿参数,每个token激活22亿参数。

Qwen3密集型模型的架构与Qwen2.5相似,都采用了分组查询注意力机制(Grouped Query Attention,GQA)、SwiGLU激活函数、旋转位置嵌入(Rotary Positional Embeddings,RoPE)和带预归一化的RMSNorm。这些技术组件就像汽车发动机中精密配合的齿轮和活塞,共同确保了模型的高效运行。此外,Qwen3还移除了Qwen2中使用的QKV-bias,并引入了QK-Norm到注意力机制中,以确保Qwen3训练过程的稳定性,就像汽车增加了稳定控制系统,即使在高速行驶时也能保持平稳。

Qwen3的MoE模型与密集型模型共享相同的基础架构。这些MoE模型拥有128个专家,每个token激活8个专家。与Qwen2.5-MoE不同,Qwen3-MoE设计排除了共享专家。此外,团队还采用了全局批量负载平衡损失(global-batch load balancing loss)来促进专家专业化。这些架构和训练创新为模型在下游任务中的性能带来了显著提升,就像为汽车配备了更高效的燃油系统和智能驾驶辅助功能,既提高了性能又降低了油耗。

所有Qwen3模型都使用Qwen的分词器,它实现了字节级字节对编码(Byte-level Byte-Pair Encoding,BBPE),词汇表大小为151,669。这就像车辆的通用接口,确保不同型号之间的兼容性和一致性。

预训练就像是模型的学校教育阶段,这个过程决定了模型的基础知识水平和学习能力。Qwen3的预训练过程就像是一个精心设计的教育计划,包括基础教育、专业训练和实践应用三个阶段。

与Qwen2.5相比,Qwen3团队显著扩大了训练数据的规模和多样性。具体来说,他们收集了两倍于Qwen2.5的预训练token数量,覆盖了三倍多的语言。所有Qwen3模型都在一个包含119种语言和方言、总计36万亿token的大型多样化数据集上进行训练。这个数据集包括各个领域的高质量内容,如编码、科学技术工程和数学(STEM)、推理任务、书籍、多语言文本和合成数据。

为了进一步扩展预训练数据规模,团队首先使用Qwen2.5-VL模型对大量PDF类文档进行文本识别,然后使用Qwen2.5模型进行精炼提高质量。这个两步流程使他们能够获得另外数万亿高质量文本token。这就像是派出一支研究小组阅读和整理世界上的书籍和文档,将其中的知识提取出来供模型学习。

此外,团队还利用Qwen2.5、Qwen2.5-Math和Qwen2.5-Coder模型合成了数万亿不同格式的文本token,包括教科书、问答、指令和代码片段,涵盖了数十个领域。这相当于请专家们根据已有知识编写新的教材和练习题,丰富模型的学习资源。

最后,通过整合额外的多语言数据并引入更多语言,与Qwen2.5的预训练数据相比,支持的语言数量从29种显著增加到119种,增强了模型的语言覆盖范围和跨语言能力。这就像是让模型参加了一个全球性的语言交流项目,接触到了世界各地的文化和表达方式。

Qwen团队开发了一个多语言数据注释系统,旨在提高训练数据的质量和多样性。该系统已应用于大规模预训练数据集,为超过30万亿token在多个维度(如教育价值、领域、安全性等)进行了注释。这些详细注释支持更有效的数据过滤和组合。与之前通过数据源或领域级别优化数据混合的研究不同,Qwen团队的方法通过实例级别优化数据混合,利用细粒度数据标签在小型代理模型上进行广泛的消融实验。这就像是为每本书、每篇文章精心添加了详细的分类标签,使得教育规划者能够更精准地为学生设计个性化的学习路径。

Qwen3模型的预训练过程分为三个阶段:

第一阶段是通用阶段。在这个初始预训练阶段,所有Qwen3模型都在超过30万亿token上进行训练,使用4,096个token的序列长度。此时,模型已经在语言能力和一般世界知识方面得到了充分预训练,训练数据覆盖了119种语言和方言。这就像是小学和中学教育阶段,建立广泛的基础知识。

第二阶段是推理阶段。为了进一步提高推理能力,团队优化了此阶段的预训练语料库,增加了STEM、编码、推理和合成数据的比例。模型在约5万亿高质量token上进行进一步预训练,序列长度为4,096个token。在此阶段,团队还加速了学习率衰减。这相当于高中和大学阶段的专业教育,着重培养分析和解决问题的能力。

第三阶段是长上下文阶段。在最终预训练阶段,团队收集高质量的长上下文语料库,以扩展Qwen3模型的上下文长度。所有模型都在数千亿token上预训练,序列长度为32,768个token。长上下文语料库中75%的文本长度在16,384到32,768个token之间,25%的文本长度在4,096到16,384之间。团队遵循Qwen2.5的做法,使用ABF技术将RoPE的基础频率从10,000增加到1,000,000。同时,他们引入了YARN和双块注意力(Dual Chunk Attention,DCA)技术,在推理过程中实现序列长度容量的四倍增加。这就像是研究生和专业培训阶段,培养处理复杂、长期项目的能力。

与Qwen2.5类似,团队基于上述三个预训练阶段开发了缩放定律,用于预测最优超参数(如学习率调度器和批量大小)。通过广泛实验,他们系统研究了模型架构、训练数据、训练阶段和最优训练超参数之间的关系。最终,他们为每个密集型或MoE模型设定了预测的最优学习率和批量大小策略,就像为每个学生制定个性化的学习计划,确保最高效的学习效果。

预训练完成后,就到了检验模型实力的时刻,就像学生经过多年学习后参加各种考试和竞赛,展示自己的能力。Qwen团队对Qwen3系列的基础语言模型进行了全面评估,重点关注它们在一般知识、推理、数学、科学知识、编码和多语言能力方面的表现。

评估数据集包括15个基准测试:

在一般任务方面,团队使用了MMLU(5-shot)、MMLU-Pro(5-shot,CoT)、MMLU-redux(5-shot)、BBH(3-shot,CoT)和SuperGPQA(5-shot,CoT)等测试。这些测试就像是综合能力考试,评估模型的多方面知识和理解能力。

数学和STEM任务方面,使用了GPQA(5-shot,CoT)、GSM8K(4-shot,CoT)和MATH(4-shot,CoT)。这相当于高级数学和科学竞赛,测试模型的逻辑推理和问题解决能力。

编码任务包括EvalPlus(0-shot)、MultiPL-E(0-shot)、MBPP-3shot和CRUXEval的CRUX-O(1-shot)。这就像是编程比赛,评估模型编写和理解计算机代码的能力。

多语言任务则有MGSM(8-shot,CoT)、MMMLU(5-shot)和INCLUDE(5-shot)。这相当于外语能力考试,测试模型在不同语言中的表现。

团队将Qwen3系列基础模型与Qwen2.5基础模型和其他领先的开源基础模型(包括DeepSeek-V3 Base、Gemma-3、Llama-3和Llama-4系列)进行了比较。所有模型都使用相同的评估流程和广泛使用的评估设置,确保公平比较。

根据总体评估结果,Qwen3基础模型展现出以下几个关键特点:

首先,与之前的开源顶尖密集型和MoE基础模型(如DeepSeek-V3 Base、Llama-4-Maverick Base和Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base在大多数任务中表现更好,且所需的总参数或激活参数明显更少。这就像一位轻量级拳击手击败了重量级选手,展示了更高效的技术和训练方法。

对于Qwen3 MoE基础模型,实验结果表明:使用相同的预训练数据,Qwen3 MoE基础模型只需1/5的激活参数就能达到Qwen3密集型基础模型的类似性能;由于Qwen3 MoE架构的改进、训练token数量的扩大和更先进的训练策略,Qwen3 MoE基础模型可以用不到1/2的激活参数和更少的总参数超越Qwen2.5 MoE基础模型;即使只有Qwen2.5密集型基础模型1/10的激活参数,Qwen3 MoE基础模型也能达到相当的性能,这为推理和训练成本带来了显著优势。这就像是发明了一种新型发动机,只需要以前1/5的燃料就能产生相同的动力输出。

Qwen3密集型基础模型的整体性能与更高参数规模的Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分别达到了Qwen2.5-3B/7B/14B/32B/72B-Base的相当性能。特别是在STEM、编码和推理基准测试中,Qwen3密集型基础模型的性能甚至超过了更高参数规模的Qwen2.5基础模型。这就像是新一代运动员通过更科学的训练方法,用更小的体型达到甚至超越了前辈的成绩。

在详细结果方面,旗舰模型Qwen3-235B-A22B-Base与几个强有力的基线相比表现优异。这个模型只有DeepSeek-V3 Base约1/3的总参数数量和2/3的激活参数,却在15个评估基准中的14个上表现更好,展示了其强大而高效的性能。与类似规模的之前MoE模型Qwen2.5-Plus相比,Qwen3-235B-A22B-Base使用更少的参数和激活参数显著超越了它,展示了Qwen3在预训练数据、训练策略和模型架构方面的显著优势。与之前的旗舰开源密集型模型Qwen2.5-72B-Base相比,Qwen3-235B-A22B-Base在所有基准测试中都超越了它,且使用的激活参数不到1/3。同时,由于模型架构的优势,Qwen3-235B-A22B-Base在每万亿token上的推理成本和训练成本都远低于Qwen2.5-72B-Base。

完成预训练后,模型就像拥有了大量知识的学生,但还需要实践和特殊训练才能将这些知识应用到实际问题中。Qwen3的后训练过程就是为了这一目的而设计的,就像是给学生提供实习和专业培训机会,将理论知识转化为解决实际问题的能力。

Qwen3的后训练管道战略性地设计了两个核心目标:首先是思考控制,包括整合"非思考"和"思考"两种模式,让用户可以灵活选择模型是否进行推理,并通过指定思考过程的token预算来控制思考深度;其次是强到弱蒸馏,旨在优化轻量级模型的后训练过程,通过利用大规模模型的知识,大幅减少构建小规模模型所需的计算成本和开发工作。

如图所示,Qwen3系列的旗舰模型遵循一个复杂的四阶段训练过程。前两个阶段专注于开发模型的"思考"能力,而后两个阶段则旨在将强大的"非思考"功能整合到模型中。

初步实验表明,直接将教师模型的输出logits蒸馏到轻量级学生模型中,可以有效提升其性能,同时保持对推理过程的细粒度控制。这种方法消除了为每个小规模模型单独执行四阶段训练过程的必要性。它不仅能带来更好的即时性能(通过更高的Pass@1分数反映),还能提高模型的探索能力(通过改进的Pass@64结果反映)。此外,这种方法还实现了更高的训练效率,与四阶段训练方法相比,只需要1/10的GPU小时数。这就像是经验丰富的教师能够通过高效的教学方法,帮助学生快速掌握关键技能,而不必让学生经历所有的试错过程。

下面详细介绍这四个训练阶段和强到弱蒸馏方法:

首先是长链思考(Long-CoT)冷启动阶段。团队首先收集了一个涵盖广泛类别的综合数据集,包括数学、代码、逻辑推理和一般STEM问题。数据集中的每个问题都配有经过验证的参考答案或基于代码的测试用例。这个数据集作为长链思考训练的"冷启动"阶段的基础。

数据集构建涉及严格的两阶段过滤过程:查询过滤和响应过滤。在查询过滤阶段,团队使用Qwen2.5-72B-Instruct识别并删除不易验证的查询,包括包含多个子问题或要求生成一般文本的查询。此外,他们排除了Qwen2.5-72B-Instruct无需使用CoT推理就能正确回答的查询,这有助于防止模型依赖表面猜测,确保只包含需要更深层推理的复杂问题。他们还使用Qwen2.5-72B-Instruct标注每个查询的领域,以保持数据集中的领域表示平衡。

保留验证查询集后,团队使用QwQ-32B为每个剩余查询生成N个候选响应。当QwQ-32B始终无法生成正确解决方案时,人类标注员手动评估响应的准确性。对于具有正Pass@N的查询,他们应用进一步的严格过滤标准,删除产生不正确最终答案、包含大量重复、明显表明猜测而没有足够推理、思考和摘要内容之间存在不一致、涉及不适当的语言混合或风格转变,或被怀疑与潜在验证集项目过于相似的响应。随后,团队使用经过精炼的数据集的精心选择子集进行推理模式的初始冷启动训练。这个阶段的目标是在模型中植入基础推理模式,而不过分强调即时推理性能,确保模型的潜力不受限制,为后续的强化学习阶段提供更大的灵活性和改进空间。为了有效实现这一目标,最好在这个准备阶段尽量减少训练样本数量和训练步骤。这就像是先让学生掌握基本的解题方法和思路,而不急于追求速度和准确率,为后续的高级训练打下基础。

第二阶段是推理强化学习。在推理RL阶段使用的查询-验证器对必须满足四个标准:它们在冷启动阶段未使用;冷启动模型可以学习它们;它们尽可能具有挑战性;它们覆盖广泛的子领域。团队最终收集了3,995个查询-验证器对,并采用GRPO来更新模型参数。他们发现使用大批量大小和每个查询的高rollout数量,结合离策略训练来提高样本效率,对训练过程有利。他们还解决了如何通过控制模型的熵稳定增加或保持稳定来平衡探索和利用,这对维持稳定训练至关重要。结果,他们在单次RL运行中实现了训练奖励和验证性能的一致改进,无需手动干预超参数。例如,Qwen3-235B-A22B模型在AIME'24上的得分从70.1增加到85.1,总共进行了170个RL训练步骤。这就像是教练通过不断调整训练方法,帮助运动员在比赛中取得越来越好的成绩。

第三阶段是思考模式融合。思考模式融合阶段的目标是将"非思考"能力整合到之前开发的"思考"模型中。这种方法允许开发者管理和控制推理行为,同时减少部署单独模型用于思考和非思考任务的成本和复杂性。为实现这一目标,团队对推理RL模型进行持续监督微调(SFT),并设计了一个聊天模板来融合两种模式。此外,他们发现能够熟练处理两种模式的模型在不同思考预算下表现一致良好。

SFT数据集结合了"思考"和"非思考"数据。为确保Stage 2模型的性能不会因额外的SFT而受损,"思考"数据是通过在Stage 1查询上使用Stage 2模型自身进行拒绝采样生成的。另一方面,"非思考"数据经过精心策划,覆盖了各种任务,包括编码、数学、遵循指令、多语言任务、创意写作、问答和角色扮演。此外,团队采用自动生成的检查表来评估"非思考"数据的响应质量。为了提高低资源语言任务的性能,他们特别增加了翻译任务的比例。

为了更好地整合两种模式并使用户能够动态切换模型的思考过程,团队为Qwen3设计了聊天模板。具体来说,对于思考模式和非思考模式的样本,他们分别在用户查询或系统消息中引入/think和/no think标志。这允许模型根据用户的输入选择适当的思考模式。对于非思考模式样本,他们在助手的响应中保留了一个空的思考块。这种设计确保了模型内部格式的一致性,允许开发者通过在聊天模板中连接一个空的思考块来防止模型进行思考行为。默认情况下,模型以思考模式运行;因此,他们添加了一些用户查询不包含/think标志的思考模式训练样本。对于更复杂的多轮对话,他们随机在用户查询中插入多个/think和/no think标志,模型响应遵循最后遇到的标志。

思考模式融合的一个额外优势是,一旦模型学会以非思考和思考模式响应,它自然会发展出处理中间情况的能力——基于不完整思考生成响应。这种能力为实现对模型思考过程的预算控制奠定了基础。具体来说,当模型的思考长度达到用户定义的阈值时,团队手动停止思考过程并插入停止思考指令:"考虑到用户的时间有限,我现在必须直接基于思考给出解决方案。\n.\n\n"。在插入此指令后,模型继续基于其累积的推理生成最终响应。值得注意的是,这种能力不是显式训练的,而是应用思考模式融合自然产生的结果。这就像是训练学生在有限时间内做决策——当时间快到时,他们需要基于已有的分析迅速得出结论,而不是无限期地思考。

第四阶段是通用强化学习。通用RL阶段旨在广泛增强模型在各种场景中的能力和稳定性。为此,团队建立了一个复杂的奖励系统,涵盖20多个不同任务,每个任务都有定制的评分标准。这些任务专门针对以下核心能力的增强:

指令遵循能力确保模型准确解释并遵循用户指令,包括与内容、格式、长度和结构化输出相关的要求,提供符合用户期望的回应。

格式遵循能力是指除了明确的指令外,模型还应遵守特定的格式约定。例如,它应该适当响应/think和/no think标志,在思考和非思考模式之间切换,并在最终输出中一致使用指定的标记(如和)来分隔思考和响应部分。

偏好对齐重点是改善模型在开放式查询中的有用性、参与度和风格,最终提供更自然、更令人满意的用户体验。这就像是训练一位服务人员不仅要准确回答问题,还要以友好、投入的方式与客户互动。

智能体能力涉及训练模型通过指定接口正确调用工具。在RL推出过程中,模型被允许执行完整的多轮交互周期,接收真实环境执行反馈,从而提高其在长期决策任务中的性能和稳定性。这相当于让学生参与实际项目,在解决实际问题的过程中学习和提高。

专业场景能力针对更专业化的场景,团队设计了适合特定上下文的任务。例如,在检索增强生成(RAG)任务中,他们纳入了奖励信号,引导模型生成准确且与上下文相关的响应,从而最小化虚构信息的风险。

为了为上述任务提供反馈,团队使用了三种不同类型的奖励:

基于规则的奖励在推理RL阶段已被广泛使用,也适用于指令遵循和格式遵守等一般任务。精心设计的基于规则的奖励可以高精度评估模型输出的正确性,防止出现奖励欺骗等问题。

带参考答案的基于模型的奖励在这种方法中,团队为每个查询提供一个参考答案,并提示Qwen2.5-72B-Instruct基于此参考对模型的响应进行评分。这种方法允许更灵活地处理各种任务,无需严格格式,避免了纯粹基于规则的奖励可能出现的假阴性。

无参考答案的基于模型的奖励利用人类偏好数据,团队训练了一个奖励模型,为模型响应分配标量分数。这种不依赖参考答案的方法可以处理更广泛的查询,同时有效增强模型的参与度和有用性。

强到弱蒸馏管道专为优化轻量级模型而设计,包括5个密集型模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一个MoE模型(Qwen3-30B-A3B)。这种方法提升了模型性能,同时有效传授了强大的模式切换能力。蒸馏过程分为两个主要阶段:

离策略蒸馏在这个初始阶段,团队结合了教师模型的输出,这些输出是使用/think和/no think模式生成的,用于响应蒸馏。这帮助轻量级学生模型发展基本推理技能和在不同思考模式之间切换的能力,为下一个在策略训练阶段奠定了坚实基础。

在策略蒸馏在这个阶段,学生模型生成在策略序列进行微调。具体来说,采样提示,学生模型在/think或/no think模式下生成响应。然后通过将其logits与教师模型(Qwen3-32B或Qwen3-235B-A22B)的logits对齐,最小化KL散度,对学生模型进行微调。

为了全面评估指令调整模型的质量,团队采用自动基准测试来评估模型在思考和非思考模式下的表现。这些基准测试分为几个维度:

通用任务包括MMLU-Redux、GPQA-Diamond、C-Eval和LiveBench(2024-11-25)。对于GPQA-Diamond,团队对每个查询进行10次采样并报告平均准确率。

对齐任务为了评估模型与人类偏好的对齐程度,团队采用了一套专业基准测试。对于指令遵循性能,他们报告了IFEval的严格提示精度。为了评估一般主题的人类偏好对齐,团队使用Arena-Hard和AlignBench v1.1。对于写作任务,他们依靠Creative Writing V3和WritingBench来评估模型的熟练度和创造力。

数学和文本推理为了评估数学和逻辑推理技能,团队采用高级数学基准测试,包括MATH-500、AIME'24和AIME'25,以及文本推理任务,包括ZebraLogic和AutoLogi。对于AIME问题,每年的问题包括第I部分和第II部分,总共30个问题。对于每个问题,团队进行64次采样,并将平均准确率作为最终分数。

智能体和编码为了测试模型在编码和基于智能体任务中的熟练度,团队使用了BFCL v3、LiveCodeBench(v5,2024.10-2025.02)和来自CodeElo的Codeforces评级。对于BFCL,所有Qwen3模型都使用FC格式进行评估,并使用yarn将模型部署到64k的上下文长度进行多轮评估。一些基线来自BFCL排行榜,取FC和Prompt格式之间的更高分数。对于未在排行榜上报告的模型,评估Prompt格式。对于LiveCodeBench,对于非思考模式,团队使用官方推荐的提示,而对于思考模式,他们调整提示模板以允许模型更自由地思考,通过移除限制"你将不会返回除程序之外的任何内容"。为了评估模型与竞争性编程专家之间的性能差距,团队使用CodeForces计算Elo评级。在他们的基准测试中,每个问题通过生成最多八次独立推理尝试来解决。

多语言任务为了多语言能力,团队评估了四种类型的任务:指令遵循、知识、数学和逻辑推理。指令遵循使用Multi-IF进行评估,重点关注8种关键语言。知识评估包括两种类型:通过INCLUDE评估区域知识,涵盖44种语言,以及通过MMMLU评估一般知识,涵盖14种语言,不包括未优化的约鲁巴语;对于这两个基准测试,团队仅对原始数据的10%进行采样,以提高评估效率。数学任务采用MT-AIME2024,涵盖55种语言,和PolyMath,包括18种语言。逻辑推理使用MlogiQA进行评估,涵盖10种语言,来源于Zhang等人的研究。

对于思考模式下的所有Qwen3模型,团队使用0.6的采样温度,0.95的top-p值和20的top-k值。此外,对于Creative Writing v3和WritingBench,他们应用1.5的存在惩罚,以鼓励生成更多样化的内容。对于非思考模式下的Qwen3模型,他们配置采样超参数为temperature = 0.7,top-p = 0.8,top-k = 20,存在惩罚 = 1.5。对于思考和非思考模式,团队将最大输出长度设置为32,768个token,除了AIME'24和AIME'25,这两者将长度扩展到38,912个token,以提供足够的思考空间。

根据评估结果,团队总结了完成训练的Qwen3模型的几个关键结论:

旗舰模型Qwen3-235B-A22B在思考和非思考模式下都展示了最先进的总体性能,超越了强大的基线如DeepSeek-R1和DeepSeek-V3。Qwen3-235B-A22B也与封闭源领先模型,如OpenAI-o1、Gemini2.5-Pro和GPT-4o相比具有高度竞争力,展示了其深刻的推理能力和全面的通用能力。这就像是一位全能运动员,能在多个不同项目中与专业选手一较高下。

旗舰密集型模型Qwen3-32B在大多数基准测试中超越了团队之前最强的推理模型QwQ-32B,并与封闭源OpenAI-o3-mini性能相当,表明其令人信服的推理能力。Qwen3-32B在非思考模式下也表现卓越,超越了团队之前的旗舰非推理密集型模型Qwen2.5-72B-Instruct。这就像是新一代运动员通过更先进的训练方法,在同样的体型下取得了超越前辈的成绩。

轻量级模型,包括Qwen3-30B-A3B、Qwen3-14B和其他较小的密集型模型,与参数量接近或更大的开源模型相比,一致表现出优越的性能,证明了团队的强到弱蒸馏方法的成功。这就像是小型车辆通过先进的发动机技术,达到甚至超越了大型车辆的性能。

在详细结果方面,旗舰模型Qwen3-235B-A22B(思考模式)与仅有60%激活参数和35%总参数的DeepSeek-R1相比,在17/23的基准测试中表现更好,特别是在需要推理的任务(如数学、智能体和编码)上,展示了Qwen3-235B-A22B在开源模型中的最先进推理能力。此外,Qwen3-235B-A22B(思考模式)与封闭源OpenAI-o1、Grok-3-Beta(思考)和Gemini2.5-Pro相比也具有高度竞争力,实质性地缩小了开源和封闭源模型之间的推理能力差距。

Qwen3-235B-A22B(非思考模式)超过了其他领先开源模型,包括DeepSeek-V3、LLaMA-4-Maverick和团队之前的旗舰模型Qwen2.5-72B-Instruct,并在18/23的基准测试中超过了封闭源GPT-4o-2024-11-20,表明即使在没有经过刻意思考过程增强的情况下,其内在也具有强大的能力。

团队的旗舰密集型模型Qwen3-32B(思考模式)在17/23的基准测试中超越了QwQ-32B,使其成为32B这一最佳规模下的新一代最先进推理模型。此外,Qwen3-32B(思考模式)还与封闭源OpenAI-o3-mini(medium)竞争,在对齐和多语言性能方面表现更好。

Qwen3-32B(非思考模式)在几乎所有基准测试上表现优于所有基线。特别是,Qwen3-32B(非思考模式)在通用任务上与Qwen2.5-72B-Instruct表现相当,在对齐、多语言和与推理相关的任务上具有显著优势,再次证明了Qwen3相对于之前Qwen2.5系列模型的根本改进。

Qwen3-30B-A3B和Qwen3-14B(思考模式)都与QwQ-32B高度竞争,特别是在与推理相关的基准测试上。值得注意的是,Qwen3-30B-A3B使用较小的模型规模和不到1/10的激活参数,达到了与QwQ-32B相当的性能,展示了团队强到弱蒸馏方法在赋予轻量级模型深刻推理能力方面的有效性。

Qwen3-30B-A3B和Qwen3-14B(非思考模式)超越了非推理基线,在大多数基准测试中表现最好。它们超越了团队之前的Qwen2.5-32B-Instruct模型,激活参数和总参数显著减少,实现了更高效和成本效益的性能。

这些边缘设备模型表现出令人印象深刻的性能,在思考或非思考模式下都超越了参数量更多的基线,包括团队之前的Qwen2.5模型。这些结果再次证明了团队强到弱蒸馏方法的功效,使他们能够以显著降低的成本和努力构建轻量级Qwen3模型。

为了验证Qwen3通过增加思考预算可以提高其智能水平,团队在数学、编码和STEM领域的四个基准测试上调整了分配的思考预算。结果显示,Qwen3展示了与分配的思考预算相关的可扩展和平滑的性能改进。此外,团队观察到,如果在未来进一步扩展32K以上的输出长度,模型的性能有望进一步提高。

团队通过比较经过蒸馏与直接强化学习后的性能和计算成本(以GPU小时计),评估了在策略蒸馏的有效性和效率,两者都从相同的离策略蒸馏8B检查点开始。为简单起见,团队仅关注数学和代码相关查询进行比较。结果显示,蒸馏在以大约1/10的GPU小时数实现显著更好性能的同时,达到了显著更好的性能。此外,从教师logits进行蒸馏使学生模型能够扩展其探索空间并增强其推理潜力,这反映在蒸馏后AIME'24和AIME'25基准测试的改进Pass@64分数上,相比初始检查点。相比之下,强化学习并没有导致Pass@64分数的任何改进。这些观察强调了利用更强大的教师模型指导学生模型学习的优势。

为了评估思考模式融合和通用强化学习在后训练中的有效性,团队对Qwen-32B模型的各个阶段进行了评估。除了前面提到的数据集外,团队还引入了几个内部基准测试来监控其他能力。这些基准测试包括:

CounterFactQA包含违反事实的问题,模型需要识别问题不是事实性的,避免生成虚构的答案。

LengthCtrl包括带有长度要求的创意写作任务;最终分数基于生成内容长度与目标长度之间的差异。

ThinkFollow涉及多轮对话,随机插入/think和/no think标志,测试模型是否能基于用户查询正确切换思考模式。

ToolUse评估模型在单轮、多轮和多步工具调用过程中的稳定性。分数包括工具调用过程中的意图识别准确率、格式准确率和参数准确率。

从结果中可以得出以下结论:

Stage 3整合了非思考模式到模型中,该模型在经过前两个阶段的训练后已经具备思考能力。ThinkFollow基准测试分数88.7表明模型已经发展出在模式之间切换的初始能力,尽管它仍然偶尔会出错。Stage 3还增强了模型在思考模式下的一般和指令遵循能力,CounterFactQA提高了10.9分,LengthCtrl提高了8.0分。这就像是学生在掌握了基本技能后,接受进一步的专业训练,学会根据情况灵活应用不同的解题方法。

Stage 4进一步加强了模型在思考和非思考模式下的一般、指令遵循和智能体能力。特别是,ThinkFollow得分提高到98.9,确保了准确的模式切换。这就像是经过更全面的训练后,学生能够根据考试要求灵活切换不同的答题策略。

对于知识、STEM、数学和编码任务,思考模式融合和通用RL并没有带来显著改进。相反,对于像AIME'24和LiveCodeBench这样具有挑战性的任务,思考模式下的性能在这两个训练阶段后实际上降低了。团队推测这种降级是由于模型接受了更广泛的一般任务训练,可能会影响其处理复杂问题的专业能力。在开发Qwen3的过程中,团队选择接受这种性能权衡,以增强模型的整体多功能性。这就像是一位运动员需要在专项训练和全面发展之间找到平衡——过度专注于某一特定技能可能会影响整体表现。

本技术报告介绍了Qwen3,Qwen系列的最新版本。Qwen3具有思考模式和非思考模式的特点,允许用户动态管理用于复杂思考任务的token数量。该模型在包含36万亿token的庞大数据集上进行了预训练,使其能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在预训练和后训练模型的各种标准基准测试中都表现出强劲的性能,包括与代码生成、数学、推理和智能体相关的任务。

在不久的将来,Qwen团队的研究将集中在几个关键领域。他们将继续通过使用质量更高、内容更多样化的数据来扩大预训练规模。同时,他们将致力于改进模型架构和训练方法,以实现有效压缩、扩展到极长上下文等目的。此外,团队计划增加强化学习的计算资源,特别关注基于智能体的RL系统,这些系统从环境反馈中学习。这将使他们能够构建能够处理需要推理时间扩展的复杂任务的智能体。

Qwen3代表了人工智能领域的重大进步,通过将思考和非思考能力整合到一个统一的模型中,提供了前所未有的灵活性和性能。随着团队继续探索和创新,我们可以期待看到更多突破和改进,进一步推动人工智能的边界,使这些强大的工具更加可访问和有用。

这项研究不仅展示了当前AI技术的能力,还为未来的发展指明了方向。通过开源他们的模型和方法,Qwen团队为全球研究社区提供了宝贵的资源,促进了开放、协作的AI研究环境。随着这些技术继续发展和成熟,它们有潜力在各个领域带来变革性的影响,从教育到医疗保健,从科学研究到日常生活。

论文地址:

来源:码客人生一点号

相关推荐