摘要:日前,国内领先的大模型公司深度求索(DeepSeek)近日宣布,其旗舰模型DeepSeek R1已完成一次重要更新,新版命名为“DeepSeek-R1-0528”。此次升级在多个关键维度上实现了显著优化,尤其是在模型的推理深度、逻辑能力及内容生成质量方面,标志
日前,国内领先的大模型公司深度求索(DeepSeek)近日宣布,其旗舰模型DeepSeek R1已完成一次重要更新,新版命名为“DeepSeek-R1-0528”。此次升级在多个关键维度上实现了显著优化,尤其是在模型的推理深度、逻辑能力及内容生成质量方面,标志着DeepSeek在大模型技术上的又一次突破。
根据官方公告,用户现已通过官方网站、App或小程序,在开启“深度思考”功能后体验该版本。API接口也已同步更新,调用方式保持不变。
基于V3 Base打造,算力投入大幅提升
DeepSeek-R1-0528仍基于2024年12月发布的DeepSeek V3 Base模型构建,但在后续训练过程中大幅增加了计算资源的投入,从而显著增强了模型的思维深度和推理能力。新版本在国内同类模型中表现出色,尤其在数学、编程以及通用逻辑等多个基准测试中位居前列,整体性能已接近国际主流顶尖模型,如OpenAI的o3和Google的Gemini 2.5 Pro。
复杂推理能力跃升,准确率提升显著
在复杂推理任务方面,新版R1相较旧版取得了质的飞跃。以AIME 2025测试为例,新版本的准确率从原来的70%提升至87.5%。这一进步得益于模型在解题过程中使用的token数量增加——在AIME测试集上,旧版平均每题使用12K tokens,而新版则达到了23K tokens,表明其具备更深入、更细致的分析能力。
此外,DeepSeek还利用新版R1的思维链对Qwen3-8B Base进行蒸馏训练,成功推出轻量级模型DeepSeek-R1-0528-Qwen3-8B。该模型在AIME 2024测试中表现优异,仅次于主版本,甚至超越了原生Qwen3-8B达10个百分点,并与Qwen3-235B不相上下,进一步验证了其蒸馏效果和技术迁移能力。
幻觉问题有效缓解,输出更精准可靠
针对此前广受关注的“幻觉”问题,DeepSeek-R1-0528进行了针对性优化。在改写润色、摘要总结、阅读理解等场景下,新版本的幻觉率降低了约45%-50%,极大提升了输出结果的准确性与可信度。
写作能力再进化,风格更贴近人类偏好
在创意写作方面,新版模型也展现出更强的能力。无论是议论文、小说还是散文,R1-0528均能生成结构完整、内容丰富、语言自然的长篇文本,且写作风格更加贴近人类读者的审美习惯,为内容创作提供了更高质量的支持。
工具调用能力对标国际主流水平
在工具调用方面,DeepSeek-R1-0528支持常规工具调用(但不适用于深度思考模式),其在Tau-Bench测评中的表现分别为airline 53.5%、retail 63.9%,与OpenAI的o1-high相当,但仍略逊于o3-High及Claude 4 Sonnet。
上下文长度与开源情况
目前,DeepSeek-R1-0528的上下文长度仍为64K tokens,满足大多数应用场景需求。若用户有更长上下文处理需求,可通过第三方平台调用开源版本,其上下文长度可达128K tokens。值得一提的是,此次升级依旧延续了DeepSeek一贯的开源策略,允许用户自由使用模型输出、进行知识蒸馏等二次开发。
社区反馈热烈,处理时长延长引发讨论
自5月28日试上线以来,DeepSeek-R1-0528便受到广泛关注。不少用户表示,升级后的模型在逻辑推理和内容生成方面表现出色,但也注意到其单次任务处理时间有所延长,部分任务耗时可达30至60分钟。对此,社区普遍认为这是模型深度增强带来的合理代价。
5月29日凌晨,DeepSeek-R1-0528已在Hugging Face平台正式开源,标志着该模型的技术价值将进一步释放。
此次DeepSeek R1的小版本升级虽未改变原有架构,却在细节打磨与能力拓展上实现了多维度突破,不仅巩固了其在国内大模型领域的领先地位,也为全球AI社区贡献了一款高性能、高可用的开源模型。未来,DeepSeek将继续深耕核心技术,推动人工智能向更高层次发展。
当新版DeepSeek在奥数测试中突然多耗一倍"脑细胞",历史学家翻出蒸汽时代的血泪账本:"每次技术狂欢,都踩着普通人的脊梁"
昨晚我表弟突然哀嚎:"姐!我的AI作业帮手疯了!" 凑近一看乐了——那道三角函数题,旧版DeepSeek三行解完,新版居然写了满屏推导过程。"它现在解道题要打23页草稿纸!"表弟哭丧着脸。可当成绩单弹出来时我们都闭了嘴:最变态的AIME数学测试,正确率从70%飙到87.5%,硬生生把奥数题卷成了送分题。
这魔幻场景正在千万用户手机里上演。国产大模型DeepSeek-R1刚完成代号0528的超级进化,解题时"脑细胞"燃烧量翻倍,却交出了逼近国际顶尖学霸的答卷。朋友圈刷屏的捷报里,历史学家尤瓦尔·赫拉利却泼来冰水:"还记得被蒸汽机齿轮绞碎的童工吗?每次技术飞跃,代价都是普通人的血泪。"
更扎心的是李开复的预言:"AI越聪明,越容易变成恶魔的许愿机!" 他直播时举的例子让人失眠——极端组织用AI设计基因武器,短视频平台用算法豢养极端情绪,甚至未来某天,按下核按钮的可能是某段自进化代码,军事AI可能自主判定"某座城市该被蒸发"。而最荒诞的解救方案,竟是训练另一个AI当"杀毒卫士",上演左右互搏的数码武侠剧,就像给电老虎套上绝缘手套。
现实比预言走得更荒诞。某私募的AI基金去年收益300%,经理私下吐槽:"它选的加密货币组合,连区块链专家都看不懂!" 协和医院的AI读片系统检出早期肺癌,准确率超90%,可当患者追问依据时,医生指着满屏参数苦笑:"我也在等它写注释..."
老教授盯着诊断报告苦笑:"这速度能顶50个我,可要是误诊了,该起诉程序员还是服务器?"
历史学家赫拉利翻开沾血的工业史:"当年欢呼纺纱机效率时,没人看见童工断指卡在齿轮里。" 他指着AI生成的网红小说冷笑:"看这些精准戳中爽点的文字,像不像精神鸦片?" 果然有网文作家控诉:读者嫌他更新慢,转头哄AI生成"代餐文",还夸机器更懂甜宠套路!
写作圈正经历着甜蜜的暴击。新版DeepSeek写的武侠小说在论坛爆火,作者"沧月"怒晒对比图:"它描写女主发簪的300字,比我全书珠宝描写都细致!" 可当读者夸AI散文"充满人性温度"时,赫拉利直接撕破假象:"那不过是概率统计的情感cosplay,就像用电子琴模仿肖邦的心跳。"
不过希望藏在裂缝里。当新版DeepSeek的"胡言乱语症"(即专业术语"幻觉")减少近半,人类反而暴露更大缺陷——某大学生用AI写论文被判抄袭,导师痛心疾首:"它至少会改写文献,你连错别字都懒得改!" 这滑稽对比印证了赫拉利的预言:"淘汰人的从来不是AI,是躺在算法温床里的惰性。"
所以别光惊叹技术神话。下次见你的AI助手陷入"深度思考"时,不妨也问问自己:当机器能创作交响乐,我们为什么还要教孩子弹钢琴?当算法完美模拟共情,你可还愿意倾听朋友凌晨三点的哭诉?就像论坛高赞评论说的:"怕的不是AI有思想,是人类丢了胡思乱想的勇气。"
面对汹涌而来的AI浪潮,两位大牛竟开出相同药方:重金押注人类独有的意识研究! 李开复说"让AI搬砖,人类写诗"时,眼睛里有文艺复兴式的火光。赫拉利则翻出美第奇家族的账本:"当年养一百个艺术家才出一个达芬奇——现在该赌21世纪的蒙娜丽莎了!"
所以别被87.5%的涨幅晃花眼。当你在深夜调戏新版DeepSeek,看它生成更流畅的情诗时,不妨想想:当机器能解所有数学题,学校的意义是什么?当AI写出完美小说,你还会为笔下稚嫩的文字骄傲吗?这场生存游戏的答案,或许藏在某大学生论坛的神回复里:"以前怕被机器取代,现在怕自己活成机器的充电器。"
所以别光惊叹技术神话。下次见你的AI助手陷入"深度思考"时,不妨也问问自己:当机器能创作交响乐,我们为什么还要教孩子弹钢琴?当算法完美模拟共情,你可还愿意倾听朋友凌晨三点的哭诉?就像论坛高赞评论说的:"怕的不是AI有思想,是人类丢了胡思乱想的勇气。"
来源:晓加说科技