DeepSeek R1 最新版本模型，排名第三，蒸馏的Qwen3深得我心

摘要：• DeepSeek-R1-0528 是 DeepSeek R1 模型的最新版本，通过增加计算资源和优化算法，显著提升了推理能力和深度• 相比前版，模型在复杂推理任务（如数学、编程、逻辑）上表现更优，性能接近顶级模型（如 O3 和 Gemini 2.5 Pro

大家好，我是 Ai 学习的老章

DeepSeek-R1 默默地小版本升级，老规矩是先放出模型，后更新 README

官方公布的模型信息有：

• DeepSeek-R1-0528 是 DeepSeek R1 模型的最新版本，通过增加计算资源和优化算法，显著提升了推理能力和深度• 相比前版，模型在复杂推理任务（如数学、编程、逻辑）上表现更优，性能接近顶级模型（如 O3 和 Gemini 2.5 Pro）• 推理深度：在 AIME 2025 测试中，准确率从 70% 提升至 87.5%，平均每题使用 token 数从 12K 增至 23K• 其他优化：降低幻觉率、增强函数调用支持、改进代码生成体验

artificialanalysis.ai 也更新了大模型智力最新排名

R1 目前可以排第三了

前两天辟谣、删文的 Unsloth（DeepSeek 新模型 V3-0526 性能比肩 GPT 4.5？纯属乌龙！）也迅速跟进，发布了量化版本 R1-0528，即便如此，，，部署成本很高

Q4_K_M 跑起来也要 500GB 显存起步了

满血我昨天稍微测试了两个问题，感觉代码能力确实不错，比 Qwen3 强多了

我个人对 DeepSeek 同步开源的一个小型模型感兴趣——DeepSeek-R1-0528-Qwen3-8B

这个模型是从 DeepSeek-R1-0528 中提炼出思维链，对 Qwen3 8B 基础模型进行后训练而得。

通过蒸馏技术，在 AIME 2024 上达到 86.0，超越 Qwen3-8B (+10%)，媲美更大模型！

DeepSeek-R1-0528-Qwen3-8B 在 2024 年美国数学邀请赛（AIME）上的开源模型中取得了最先进（SOTA）的性能，比 Qwen3 8B 提高了 10.0%，性能与 Qwen3-235B-thinking 相当。

明天我准备本地部署测试一下

看介绍，它的模型架构与 Qwen3-8B 完全相同，只是与 DeepSeek-R1-0528 共享相同的分词器配置，所以，部署的话与 Qwen3-8B 没啥区别。

应该一张 4090 就 OK 了

最后，就本地部署而言，我最喜欢的还是 Qwen3:32B，不知道 DeepSeek-R1-0528-Qwen3-8B 能不能惊艳我。

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

搭建完美的写作环境：工具篇（12 章）
图解机器学习 - 中文版（72 张 PNG）
ChatGPT、大模型系列研究报告（50 个 PDF）
108 页 PDF 小册子：搭建机器学习开发环境及 Python 基础
116 页 PDF 小册子：机器学习中的概率论、统计学、线性代数
史上最全！371 张速查表，涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

来源：章北海一点号1

标签：模型 deepseek a deepseekr1 qwen3

本文地址：https://news.43u.com.cn/a/1871332.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!