摘要:在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。
这两天AI圈发生了一个大事件….
在千亿模型满天飞,MOE架构正流行的当下,一个在AI领域名不见经传的企业,贝壳找房,发布了一款32B的稠密模型,AM-Thinking- V1。
在包括AIME在内的多项AI基准测试中,这款中等参数模型碾压了满血版671B DeepSeek-R1,性能与阿里刚刚发布的Qwen3-235B-A22B持平。
一直以来在模型领域有一条不成文的规则,参数越大,能力越强。
在AI圈子里,如果你发布的模型没有达到千亿级参数,貌似都不好意思说自己是做AI前沿研究。
但AM-Thinking-V1 反其道而行之,完美诠释了什么叫“小身板,大智慧”。
研究背景:从创新到共享
AM-Thinking-V1来自贝壳内部致力于探索AGI 的a-m-team团队,该团队在2024年下半年开始投入中等规模模型的推理能力研究,并于2025年5月13日在arXiv平台公布了AM-Thinking-v1的完整技术报告(arXiv:2505.08311v1)。
AM-Thinking-V1完全基于开源基模型(Qwen2.5-32B)和公开数据集。这意味着普通研究机构或企业无需天价算力,也能复现这项突破。
值得一提的是,a-m-team团队不仅发表了论文,还按照开源精神将模型完整开源在了Hugging Face平台上,为整个AI社区贡献了宝贵资源。
核心成果:轻量级选手的重量级表现
AM-Thinking-v1的模型究竟有多厉害,我们可以看一下它在各大AI基准测试中的表现。
在被誉为数学推理能力“试金石”的AIME 2024挑战赛上,AM-Thinking-v1取得了高达85.3分的好成绩;
在难度更上一层楼的AIME 2025中,它也拿下了74.4分;
如果你不熟悉AIME,可以把它想象成一场数学奥林匹克竞赛,即使是对数学专业的大学生来说也相当困难。
而在考察代码生成能力的LiveCodeBench测试中,它的得分也达到了70.3分。
这些分数意味着什么呢?简单来说,就是在数学问题求解和编程这两大需要高度逻辑推理能力的领域,AM-Thinking-v1的表现已经达到了目前开源模型中同等规模(320亿参数级别)的顶尖水平。
在与更高参数模型的对比中,它全面碾压了满血版DeepSeek-R1(671B MOE),并且能够与Qwen3-235B-A22B、Seed1.5-Thinking这些参数量远超自己的顶级MoE模型一较高下。
AM-Thinking-v1的数据表现就像是在拳击比赛中,一个60公斤的次轻量级选手KO了200公斤的重量级对手,但AM-Thinking-v1并非从零开始训练,研究团队基于开源的Qwen2.5-32B基础模型,通过精心设计的后期训练(post-training)过程,显著增强了模型的推理能力。
这表明,模型的整体架构设计和训练方法或许比单纯增加参数数量更为关键。这为那些没有大型计算资源的研究团队和开发者带来了新的希望和可能性
PROMPT :write a python script for a bouncing red ball within a triangle, make sure to handle collision detection properly. make the triangle slowly rotate. implement it in python. make sure ball stays within the triangle
方法评析:"精工细作"的训练秘方
AM-Thinking-v1取得这样的成绩并非偶然,背后是a-m-team团队一套精心设计的“武功秘籍”——他们独特的后训练流程。
我们知道,现在很多大模型就像是天赋异禀的学徒,虽然基础不错,但要成为真正的推理大师,还需要后天刻苦的专项训练。AM-Thinking-v1的成功,很大程度上就归功于这个“后天培养计划”。
这个计划的核心可以概括为两大方面:一是“喂好料”,二是“练好招”。
“喂好料”,就是对训练数据的极致追求。
研究团队深知,AI模型学习的效果,很大程度上取决于学习材料的质量。他们并没有依赖一般人难以获取的私有数据,而是完全基于公开可用的查询数据。这些数据他们并没有直接拿来就用,而是进行了一番精心的“筛选和净化”。这就好比大厨做菜,食材的新鲜度和纯净度至关重要。
他们对收集到的各种开源查询和指令进行了严格的预处理,包括去除重复内容、过滤掉质量不高或包含图片等多模态信息的查询(因为AM-Thinking-v1是个纯文本模型,看不懂图片),非常关键的一步是,彻底清除了那些与最终评测数据集相似或重合的训练数据,确保考试不漏题、成绩真实有效。
特别是在数学题这类“重灾区”,研究团队发现原始数据中存在大量描述不清或答案错误的问题。为此,他们构建了一套完整的数学数据处理流水线,不仅用AI工具辅助筛选掉那些“奇葩”题目,还对题目的标准答案进行了反复核实和修正,确保喂给模型的每一道数学题都是“精品”。
“练好招”,也就是巧妙的训练策略。
在有了高质量的“教材”之后,如何让模型高效学习并掌握推理能力呢?
AM-Thinking-v1的训练主要分为两个阶段:监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)。
在监督微调阶段,研究团队采用了一种“冷启动”的数据集,鼓励模型形成一种“先思考,再回答”(think-then-answer)的模式。这就像教学生解题,不是直接给出答案,而是引导他们先写出解题步骤,再得出最终结果,从而培养初步的逻辑推理能力,这个阶段就像是给模型打下了坚实的解题方法论基础。
紧接着的强化学习阶段,则更像是针对性的“刷题”和“拔高”。
在这个阶段,研究团队引入了“难度感知查询选择”机制。他们会根据模型在SFT阶段的表现,筛选出那些对模型来说既有挑战性又非遥不可及的题目进行训练。太简单的题目,模型学不到新东西;太难的题目,模型容易受挫,甚至“学懵圈”。通过这种动态调整训练难度的方法,确保模型能够稳定地、渐进式地提升推理水平。
他们还采用了两阶段的训练程序,在模型学习遇到瓶颈时,会调整策略,比如移除已经完全掌握的简单题目,补充一些新的、不同类型的题目(如通用聊天和指令遵循数据),以增强模型的泛化能力,防止模型“偏科”。
研究团队采用了GRPO(Group Relative Policy Optimization)的强化学习算法的变体,这种算法虽然相对简单轻量,但研究团队发现它在训练稳定性和性能提升方面效果显著。
正是凭借这样一套完全基于开源模型、开源数据,并经过精心打磨的后训练流程,AM-Thinking-v1才得以在320亿参数的规模下,爆发出惊人的推理能量。
任何研究都不可能完美无缺。从一个客观中立的角度来看,AM-Thinking-v1虽然取得了巨大成功,但也存在一些潜在的局限性。它的出色表现高度依赖于其基础模型Qwen2.5-32B。
如果基础模型在某些方面存在固有的短板,那么AM-Thinking-v1可能也难以完全克服。
尽管研究团队努力提升模型的泛化能力,但AM-Thinking-v1的核心优势还是体现在经过精心数据清洗和专项训练的数学和代码推理上。在其他一些需要更复杂、更微妙的常识推理或创造性思维的领域,它的表现是否依然顶尖,还需要更多的检验。
同时我们也要认识到,在基准测试中取得高分,与在千变万化的真实世界应用中表现优异之间,往往还存在一定的差距。
AM-Thinking-v1无疑为中等规模模型的发展指明了一个极具潜力的方向,但未来的路依然漫长。
结论:普惠AI的新曙光
AM-Thinking-v1的成功对AI领域有着深远的影响。
它展示了在资源有限的情况下,通过精心设计的后训练方法,也能够获得强大的推理能力。
在过去,顶级推理能力的桂冠似乎总是被那些拥有海量数据和计算资源的巨头公司所垄断。AM-Thinking-v1的成功,尤其是其完全依赖公开数据和开源基础模型的做法,极大地鼓舞了中小型研究团队和个人开发者。
它清晰地展示了一条路径:即使没有“钞能力”,通过智慧的技术优化,同样可以触及AI推理的前沿。这无疑会激发更多人投身于中等规模模型的优化和创新,形成更加多元和活跃的开源生态。
同时,AM-Thinking-v1为AI模型的“性价比”和“可部署性”树立了一个新的标杆。在实际应用中,模型的参数量直接关系到其训练成本、推理延迟和部署难度。320亿参数的规模,相较于那些数千亿甚至万亿参数的模型,无疑在硬件需求、能源消耗和维护成本上都具有显著优势。这意味着,像AM-Thinking-v1这样“小而精”的模型,更容易被集成到各种实际应用场景中,无论是部署在云端提供服务,还是嵌入到边缘设备中实现本地智能,都更加现实可行。
从应用角度看,AM-Thinking-v1的强大推理能力使其适用于各种要求高精度推理的场景。
比如在教育领域,它可以帮助学生解决复杂的数学问题,提供详细的解题思路;在软件开发领域,它可以辅助生成高质量的代码,节省开发时间;在科学研究中,它可以帮助分析复杂数据和提出假设。更广泛地说,这种模型可以成为各行各业中知识工作者的智能助手,增强人类的认知能力。
不过,正如研究团队自己指出的,AM-Thinking-v1也存在一些局限。它缺乏对结构化函数调用、工具使用和多模态输入的支持,这限制了它在基于代理的或跨模态场景中的应用。
同时,其安全对齐仍处于初级阶段,需要进一步的测试。模型在低资源语言和特定领域任务上的表现也可能存在差异。
至顶AI实验室洞见:AI发展的另一种可能性
在当前以大模型为主导的AI格局中,AM-Thinking-v1向我们展示了一条可能更加可持续和普惠的发展路径。
AM-Thinking-v1证明,通过更加智能和有效的训练方法,我们可以在不过度消耗计算资源的前提下,打造强大的AI系统。这对于减少AI训练和部署的能源消耗,降低环境影响有着积极意义。
开源中等规模模型的普及将使更多研究者和开发者能够接触和使用高级AI技术,促进创新和知识共享。这可能会加速AI技术的民主化进程,让AI的好处惠及更广泛的人群。
我们相信未来模型发展方向,"更小更精"的垂直模型将与"更大更强"的通用模型形成互补,共同推动AI技术的进步。
未来,我们肯定会看到更多类似AM-Thinking-v1这样的模型,它们虽然规模不大,但在特定任务上表现出色,为不同应用场景提供定制化的解决方案。
AM-Thinking-v1的研究成果不仅是一项技术突破,更是对AI发展理念的重要启示。它提醒我们,在追求更大模型的同时,也要关注如何通过更智能的方法,让现有资源发挥最大价值。这或许正是AI走向可持续发展的关键所在。
在AI这条发展道路上,有时候"更聪明"比"更强壮"更重要
论文地址:https://arxiv.org/pdf/2505.08311
来源:码客人生一点号