阿里 QwQ-32B 推理模型匹配 DeepSeek-R1,性能优于 OpenAI o1-mini

360影视 动漫周边 2025-03-12 13:58 2

摘要:阿里巴巴的 Qwen 团队近日发布了 QwQ-32B (Qwen with Questions),这是一款大型推理模型 (LRM),可与 DeepSeek-R1 和 OpenAI o1-mini 等领先模型的性能相匹配。

阿里巴巴的 Qwen 团队近日发布了 QwQ-32B (Qwen with Questions),这是一款大型推理模型 (LRM),可与 DeepSeek-R1 和 OpenAI o1-mini 等领先模型的性能相匹配。

阿里巴巴在 11 月发布了 QwQ-32B-preview。新版本在关键基准测试中具有更好的性能,同时比其他开源竞争者具有更高的内存和计算效率。这一新版本的发布是在大型科技公司和 AI 实验室之间争夺 LRM 市场主导地位的激烈竞争的背景下发布的。

QwQ-32B 是一种推理模型,这意味着它已经过训练,可以在数学和编码等任务上表现得更好,或者需要深思熟虑的思考和逐步解决问题。它有 320 亿个参数,比拥有 6710 亿个参数的 DeepSeek-R1 主版本小了一个数量级以上。(但是,值得注意的是,R1 是一个专家混合 (MoE) 模型,这意味着在任何给定时间,只有其参数的一个子集被激活。

QwQ-32B-preview 有一个 32,000 个令牌的上下文窗口。根据 QwQ-32B 的模型卡,其上下文长度已扩展到 131,072 个标记,这类似于 Claude 3.7 Sonnet 和 Gemini 2.0 Flash Thinking 等其他推理模型。

在数学和编码基准测试中,QwQ-32B 的性能几乎与 DeepSeek-R1-671B 相当,同时击败了 R1 的 o1-mini 和蒸馏版本(尽管它的性能低于 o1、o3-mini、Claude 3.7 Sonnet 和 Grok-3,这些版本未包含在 Qwen 团队发布的图表中)。

QwQ-32B 基于 Qwen 团队的前沿通用大语言模型 Qwen-2.5-32B (LLM)。该团队使用强化学习 (RL) 训练基本模式,并提供“基于结果的奖励”。这意味着模型由其自身推理并产生结果。然后,使用验证器(如代码解释器或数学求解器)检查结果。然后,该模型会审查并重新调整其响应,直到获得正确的答案。

这一阶段的培训仅限于数学和编码任务。这与 DeepSeek-R1-Zero 中使用的方法相同,它摒弃了使用奖励模型的传统方法,该方法不仅使用结果,而且使用推理过程。

这是一种违反直觉的方法,因为在推理任务中,奖励是“稀疏的”,这意味着模型可以尝试无数种方法来解决问题,但其中很少有方法能得出正确的答案。传统上,该模型需要人工设计的示例来学习正确的推理路径。然而,鉴于当今模型通过预训练获得的强大知识,纯 RL 方法有效。该模型能够利用其内部知识来纠正其推理并找到正确的解决方案。随着验证者的奖励信号,模型不仅逐渐收敛于正确的解决方案,而且逐渐收敛于最佳推理路径。

根据该公司的博客,他们已“将与智能体相关的功能集成到推理模型中,使其能够在利用工具的同时进行批判性思考,并根据环境反馈调整其推理。

QwQ-32B 的一个有趣方面是两阶段 RL 训练。在第一个训练阶段之后,他们针对一般能力执行了另一个阶段的 RL。在此阶段,该模型使用通用奖励模型和基于规则的验证器进行训练,这些模型涉及更多的手动工程。

研究人员写道:“我们发现,这个阶段的 RL 训练具有少量步骤可以提高其他通用功能的性能,例如指令跟随、与人类偏好的一致性以及代理性能,而不会显着降低数学和编码的性能。这在模型在 LiveBench 和 IFEval 等基准测试中的性能中显而易见。

这很重要,因为它是一个可扩展的过程,使模型能够主要自行学习推理,并且只需要很少的人工指导来提高其性能并使其输出与人类偏好保持一致。

与 OpenAI o1 和 o3 不同,QwQ-32B 是一个开放模型,这意味着您可以下载它并在自己的服务器上运行它。它可以在 Hugging Face 和 ModelScope(相当于 Hugging Face)上找到。它也已在 Apache 2.0 许可下发布,这意味着它可以用于商业目的。(值得注意的是,Qwen 尚未发布用于训练模型的源代码和数据,这实际上并不能使其成为完全开源的模型。

在 Hugging Face Spaces 上有一个 QwQ-32B 的托管版本,您可以在其中运行实验并测试模型的推理能力。您还可以在 Qwen Chat 上访问该模型,Qwen Chat 是 Qwen 模型的 ChatGPT 等效项。(在模型的托管版本中键入敏感信息时要小心)

来源:AI中国

相关推荐