DeepSeek R1 最新版本模型,排名第三,蒸馏的Qwen3深得我心

360影视 欧美动漫 2025-05-30 18:31 2

摘要:• DeepSeek-R1-0528 是 DeepSeek R1 模型的最新版本,通过增加计算资源和优化算法,显著提升了推理能力和深度• 相比前版,模型在复杂推理任务(如数学、编程、逻辑)上表现更优,性能接近顶级模型(如 O3 和 Gemini 2.5 Pro

大家好,我是 Ai 学习的老章

DeepSeek-R1 默默地小版本升级,老规矩是先放出模型,后更新 README

官方公布的模型信息有:

• DeepSeek-R1-0528 是 DeepSeek R1 模型的最新版本,通过增加计算资源和优化算法,显著提升了推理能力和深度• 相比前版,模型在复杂推理任务(如数学、编程、逻辑)上表现更优,性能接近顶级模型(如 O3 和 Gemini 2.5 Pro)• 推理深度:在 AIME 2025 测试中,准确率从 70% 提升至 87.5%,平均每题使用 token 数从 12K 增至 23K• 其他优化:降低幻觉率、增强函数调用支持、改进代码生成体验

artificialanalysis.ai 也更新了大模型智力最新排名

R1 目前可以排第三了

前两天辟谣、删文的 Unsloth(DeepSeek 新模型 V3-0526 性能比肩 GPT 4.5?纯属乌龙!)也迅速跟进,发布了量化版本 R1-0528,即便如此,,,部署成本很高

Q4_K_M 跑起来也要 500GB 显存起步了

满血我昨天稍微测试了两个问题,感觉代码能力确实不错,比 Qwen3 强多了

我个人对 DeepSeek 同步开源的一个小型模型感兴趣——DeepSeek-R1-0528-Qwen3-8B

这个模型是从 DeepSeek-R1-0528 中提炼出思维链,对 Qwen3 8B 基础模型进行后训练而得。

通过蒸馏技术,在 AIME 2024 上达到 86.0,超越 Qwen3-8B (+10%),媲美更大模型!

DeepSeek-R1-0528-Qwen3-8B 在 2024 年美国数学邀请赛(AIME)上的开源模型中取得了最先进(SOTA)的性能,比 Qwen3 8B 提高了 10.0%,性能与 Qwen3-235B-thinking 相当。

明天我准备本地部署测试一下

看介绍,它的模型架构与 Qwen3-8B 完全相同,只是与 DeepSeek-R1-0528 共享相同的分词器配置,所以,部署的话与 Qwen3-8B 没啥区别。

应该一张 4090 就 OK 了

最后,就本地部署而言,我最喜欢的还是 Qwen3:32B,不知道 DeepSeek-R1-0528-Qwen3-8B 能不能惊艳我。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)
图解机器学习 - 中文版(72 张 PNG)
ChatGPT、大模型系列研究报告(50 个 PDF)
108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础
116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数
史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

来源:章北海一点号1

相关推荐