国产模型推理暴涨87.5%，接近国际顶尖，AI解题多写23页草稿…..

摘要：日前，国内领先的大模型公司深度求索（DeepSeek）近日宣布，其旗舰模型DeepSeek R1已完成一次重要更新，新版命名为“DeepSeek-R1-0528”。此次升级在多个关键维度上实现了显著优化，尤其是在模型的推理深度、逻辑能力及内容生成质量方面，标志

日前，国内领先的大模型公司深度求索（DeepSeek）近日宣布，其旗舰模型DeepSeek R1已完成一次重要更新，新版命名为“DeepSeek-R1-0528”。此次升级在多个关键维度上实现了显著优化，尤其是在模型的推理深度、逻辑能力及内容生成质量方面，标志着DeepSeek在大模型技术上的又一次突破。

根据官方公告，用户现已通过官方网站、App或小程序，在开启“深度思考”功能后体验该版本。API接口也已同步更新，调用方式保持不变。

基于V3 Base打造，算力投入大幅提升

DeepSeek-R1-0528仍基于2024年12月发布的DeepSeek V3 Base模型构建，但在后续训练过程中大幅增加了计算资源的投入，从而显著增强了模型的思维深度和推理能力。新版本在国内同类模型中表现出色，尤其在数学、编程以及通用逻辑等多个基准测试中位居前列，整体性能已接近国际主流顶尖模型，如OpenAI的o3和Google的Gemini 2.5 Pro。

复杂推理能力跃升，准确率提升显著

在复杂推理任务方面，新版R1相较旧版取得了质的飞跃。以AIME 2025测试为例，新版本的准确率从原来的70%提升至87.5%。这一进步得益于模型在解题过程中使用的token数量增加——在AIME测试集上，旧版平均每题使用12K tokens，而新版则达到了23K tokens，表明其具备更深入、更细致的分析能力。

此外，DeepSeek还利用新版R1的思维链对Qwen3-8B Base进行蒸馏训练，成功推出轻量级模型DeepSeek-R1-0528-Qwen3-8B。该模型在AIME 2024测试中表现优异，仅次于主版本，甚至超越了原生Qwen3-8B达10个百分点，并与Qwen3-235B不相上下，进一步验证了其蒸馏效果和技术迁移能力。

幻觉问题有效缓解，输出更精准可靠

针对此前广受关注的“幻觉”问题，DeepSeek-R1-0528进行了针对性优化。在改写润色、摘要总结、阅读理解等场景下，新版本的幻觉率降低了约45%-50%，极大提升了输出结果的准确性与可信度。

写作能力再进化，风格更贴近人类偏好

在创意写作方面，新版模型也展现出更强的能力。无论是议论文、小说还是散文，R1-0528均能生成结构完整、内容丰富、语言自然的长篇文本，且写作风格更加贴近人类读者的审美习惯，为内容创作提供了更高质量的支持。

工具调用能力对标国际主流水平

在工具调用方面，DeepSeek-R1-0528支持常规工具调用（但不适用于深度思考模式），其在Tau-Bench测评中的表现分别为airline 53.5%、retail 63.9%，与OpenAI的o1-high相当，但仍略逊于o3-High及Claude 4 Sonnet。

上下文长度与开源情况

目前，DeepSeek-R1-0528的上下文长度仍为64K tokens，满足大多数应用场景需求。若用户有更长上下文处理需求，可通过第三方平台调用开源版本，其上下文长度可达128K tokens。值得一提的是，此次升级依旧延续了DeepSeek一贯的开源策略，允许用户自由使用模型输出、进行知识蒸馏等二次开发。

社区反馈热烈，处理时长延长引发讨论

自5月28日试上线以来，DeepSeek-R1-0528便受到广泛关注。不少用户表示，升级后的模型在逻辑推理和内容生成方面表现出色，但也注意到其单次任务处理时间有所延长，部分任务耗时可达30至60分钟。对此，社区普遍认为这是模型深度增强带来的合理代价。

5月29日凌晨，DeepSeek-R1-0528已在Hugging Face平台正式开源，标志着该模型的技术价值将进一步释放。

此次DeepSeek R1的小版本升级虽未改变原有架构，却在细节打磨与能力拓展上实现了多维度突破，不仅巩固了其在国内大模型领域的领先地位，也为全球AI社区贡献了一款高性能、高可用的开源模型。未来，DeepSeek将继续深耕核心技术，推动人工智能向更高层次发展。

当新版DeepSeek在奥数测试中突然多耗一倍"脑细胞"，历史学家翻出蒸汽时代的血泪账本："每次技术狂欢，都踩着普通人的脊梁"

昨晚我表弟突然哀嚎："姐！我的AI作业帮手疯了！" 凑近一看乐了——那道三角函数题，旧版DeepSeek三行解完，新版居然写了满屏推导过程。"它现在解道题要打23页草稿纸！"表弟哭丧着脸。可当成绩单弹出来时我们都闭了嘴：最变态的AIME数学测试，正确率从70%飙到87.5%，硬生生把奥数题卷成了送分题。

这魔幻场景正在千万用户手机里上演。国产大模型DeepSeek-R1刚完成代号0528的超级进化，解题时"脑细胞"燃烧量翻倍，却交出了逼近国际顶尖学霸的答卷。朋友圈刷屏的捷报里，历史学家尤瓦尔·赫拉利却泼来冰水："还记得被蒸汽机齿轮绞碎的童工吗？每次技术飞跃，代价都是普通人的血泪。"

更扎心的是李开复的预言："AI越聪明，越容易变成恶魔的许愿机！" 他直播时举的例子让人失眠——极端组织用AI设计基因武器，短视频平台用算法豢养极端情绪，甚至未来某天，按下核按钮的可能是某段自进化代码，军事AI可能自主判定"某座城市该被蒸发"。而最荒诞的解救方案，竟是训练另一个AI当"杀毒卫士"，上演左右互搏的数码武侠剧，就像给电老虎套上绝缘手套。

现实比预言走得更荒诞。某私募的AI基金去年收益300%，经理私下吐槽："它选的加密货币组合，连区块链专家都看不懂！" 协和医院的AI读片系统检出早期肺癌，准确率超90%，可当患者追问依据时，医生指着满屏参数苦笑："我也在等它写注释..."

老教授盯着诊断报告苦笑："这速度能顶50个我，可要是误诊了，该起诉程序员还是服务器？"

历史学家赫拉利翻开沾血的工业史："当年欢呼纺纱机效率时，没人看见童工断指卡在齿轮里。" 他指着AI生成的网红小说冷笑："看这些精准戳中爽点的文字，像不像精神鸦片？" 果然有网文作家控诉：读者嫌他更新慢，转头哄AI生成"代餐文"，还夸机器更懂甜宠套路！

写作圈正经历着甜蜜的暴击。新版DeepSeek写的武侠小说在论坛爆火，作者"沧月"怒晒对比图："它描写女主发簪的300字，比我全书珠宝描写都细致！" 可当读者夸AI散文"充满人性温度"时，赫拉利直接撕破假象："那不过是概率统计的情感cosplay，就像用电子琴模仿肖邦的心跳。"

不过希望藏在裂缝里。当新版DeepSeek的"胡言乱语症"（即专业术语"幻觉"）减少近半，人类反而暴露更大缺陷——某大学生用AI写论文被判抄袭，导师痛心疾首："它至少会改写文献，你连错别字都懒得改！" 这滑稽对比印证了赫拉利的预言："淘汰人的从来不是AI，是躺在算法温床里的惰性。"

所以别光惊叹技术神话。下次见你的AI助手陷入"深度思考"时，不妨也问问自己：当机器能创作交响乐，我们为什么还要教孩子弹钢琴？当算法完美模拟共情，你可还愿意倾听朋友凌晨三点的哭诉？就像论坛高赞评论说的："怕的不是AI有思想，是人类丢了胡思乱想的勇气。"

面对汹涌而来的AI浪潮，两位大牛竟开出相同药方：重金押注人类独有的意识研究！李开复说"让AI搬砖，人类写诗"时，眼睛里有文艺复兴式的火光。赫拉利则翻出美第奇家族的账本："当年养一百个艺术家才出一个达芬奇——现在该赌21世纪的蒙娜丽莎了！"

所以别被87.5%的涨幅晃花眼。当你在深夜调戏新版DeepSeek，看它生成更流畅的情诗时，不妨想想：当机器能解所有数学题，学校的意义是什么？当AI写出完美小说，你还会为笔下稚嫩的文字骄傲吗？这场生存游戏的答案，或许藏在某大学生论坛的神回复里："以前怕被机器取代，现在怕自己活成机器的充电器。"

来源：晓加说科技

标签：模型推理赫拉 deepseek aime

本文地址：https://news.43u.com.cn/a/1855440.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐