欧洲首个推理模型 Magistral 问世,性能与 DeepSeek 仍有差距

360影视 欧美动漫 2025-06-11 16:41 2

摘要:当地时间周二,法国人工智能初创公司 Mistral 宣布推出欧洲首个推理模型 Magistral,这一成果标志着欧洲在人工智能领域迈出重要一步,不过其性能与行业领先的 DeepSeek R1-0528 相比,仍存在较大差距。

当地时间周二,法国人工智能初创公司 Mistral 宣布推出欧洲首个推理模型 Magistral,这一成果标志着欧洲在人工智能领域迈出重要一步,不过其性能与行业领先的 DeepSeek R1-0528 相比,仍存在较大差距。

Mistral 成立于 2023 年初,由前谷歌 DeepMind、Meta 等科技巨头的研究人员创立,已获得数十亿美元融资。在短短两年内,该公司发布了一系列开源 AI 模型以及类似 ChatGPT 的聊天机器人 Le Chat。此次推出的 Magistral 推理模型,包含 Magistral Small 和 Magistral Medium 两个版本。

其中,Magistral Small 拥有 240 亿参数,已在人工智能开发平台 Hugging Face 上以 Apache 2.0 许可证开放下载。而 Magistral Medium 作为能力更强的模型,目前处于预览阶段,仅在 Mistral 的 Le Chat 聊天平台、公司 API 以及第三方合作伙伴云平台上提供。Mistral 方面表示,Magistral 适用于广泛的企业级应用场景,包括结构化计算、程序化逻辑、决策树和基于规则的系统等。这些模型经过多步骤逻辑的微调,能够提升可解释性,并以用户语言提供可追溯的思考过程。

然而,从性能对比来看,Magistral 与当前先进的推理模型存在明显差距。在对比测试中,Magistral Small(24B 尺寸)甚至不及 Qwen3-4B,更无法与 Qwen3-30B-A3B 相提并论,和中国人工智能初创公司 DeepSeek 发布的 R1-0528 相比,差距更为显著。即使是与 DeepSeek R1 相比,Magistral Medium 在某些关键领域的表现也逊色不少。例如在处理复杂数学问题、代码生成等任务时,DeepSeek R1 展现出更高的准确性和效率。

在数学基准测试 MATH 500 中,DeepSeek R1 取得了优异成绩,而 Magistral Medium 的得分与之相差甚远。在 AIME 2024 测试以及 Codeforces 基准测试中,情况同样如此,DeepSeek R1 均大幅领先 Magistral。在软件工程 SWE-bench Verified 基准测试中,DeepSeek R1 也有着不错的表现,相比之下,Magistral Medium 则稍显逊色。

Mistral 联合创始人兼首席执行官 Arthur Mensch 表示,Magistral 的独特卖点是能够用多种语言进行推理,特别是欧洲语言,如英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语等。“从历史上看,我们看到美国的模型用英语进行推理,中国的模型更擅长用中文进行推理,而我们的模型将填补欧洲语言推理的空白。”

不过,目前市场上流行的推理模型,如 OpenAI 的 o1/o3、DeepSeek 的 R1、Claude 3.7 和 Gemini Thinking 等,在处理不同复杂度任务时各有优劣。在低复杂度任务中,传统大语言模型表现更佳;在中等复杂度任务中,具备思维机制的推理模型更具优势;但在处理高复杂度任务时,许多模型都可能陷入失效状态。并且,这些模型在处理简单问题时容易 “过度思考”,而当问题复杂性上升到一定程度,其准确性会显著下降。

Mistral 在技术报告中指出,Magistral 应用了自主研发的可扩展强化学习流水线,采用自下而上的方法,完全依赖自己的模型和基础设施,而非依赖现有实现和从先前模型中提炼出的强化学习痕迹。在研究过程中,团队发现基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。

为了让模型在推理过程中使用与用户相同的语言,Mistral 的工程人员还进行了特别优化。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言,为此,他们在计算对话(由问题、想法、答案组成)的奖励时,首先通过删除 LaTeX 内容和代码块对这三个部分进行归一化,然后对每个部分应用 fastText 分类器。如果分类器指示所有三个部分都使用相同的语言,则会额外给予 0.1 的奖励。通过这样的简单修改,使模型能够紧密跟踪用户的语言,最大限度地减少代码切换,同时保持推理任务的性能。

尽管 Magistral 在性能上落后于 DeepSeek 等模型,但它的推出对于欧洲人工智能领域仍具有重要意义。它为欧洲的科研机构、企业以及开发者提供了一个全新的选择,有助于推动欧洲人工智能产业的发展。并且,Mistral 也在不断努力提升模型性能,未来有望通过持续的研发和优化,缩小与领先模型之间的差距。随着人工智能技术的快速发展,推理模型在各个领域的应用需求不断增长,无论是在科研、金融、医疗还是工业制造等行业,高效准确的推理模型都将发挥越来越重要的作用。Magistral 的出现,也将促使其他模型研发团队不断创新和进步,共同推动人工智能推理技术的发展。

来源:人工智能学家

相关推荐