摘要:DeepSeek R1模型悄然升级,代码生成和逻辑推理能力大幅提升,直逼Claude 3.7及OpenAI o3高版本,前端审美与Claude 4相当。此次升级虽低调,却在性能上带来显著突破。
DeepSeek R1模型悄然升级,代码生成和逻辑推理能力大幅提升,直逼Claude 3.7及OpenAI o3高版本,前端审美与Claude 4相当。此次升级虽低调,却在性能上带来显著突破。
熟悉饼干哥哥公众号风格的同学都知道,我一般不实时追热点的:太着急下的判断很多时候是错的,误导读者。
今早起来,看到AI自媒体们又集体高潮了:DeepSeek再一次改变历史?
无语了😅
但我实测的时候发现被打脸了
不是。。。DeepSeek你真会啊??那我刚充的20美金算什么??
太长不看版,直接划重点:
DeepSeek R1模型在5月28日进行了“小版本试升级”(0528版),官方异常低调,未公布具体更新日志!API接口和使用方式不变,开发者零成本升级!实测炸裂:代码生成能力大幅提升,部分测试直逼乃至超越Claude 3.7,媲美OpenAI o3高版本!前端审美也和Claude 4打得有来有回!逻辑推理、长文本处理再进化! 语义理解更精准,复杂逻辑链更稳定,超长上下文回溯更准,甚至能像o3一样纠正思维链(CoT)!为什么网上测评说DeepSeek很强,但自己上手后效果就很差呢?附:DeepSeek的正确打开方式实测下来,思考链真的好长好长,一句话完成复杂需求的新AI时代到了!!
昨天!AI圈又被DeepSeek这匹黑马给搅动了!DeepSeek官方在交流群中低调宣布,R1模型已完成小版本试升级!用户可以通过官网、App或小程序(需打开「深度思考」功能)进行测试。
但诡异的是,官方这次竟然一个字儿都没提更新了啥!Docs里的「Change Log」也还停留在3月份。这葫芦里到底卖的什么药?是小打小闹,还是憋了个大招?
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
尽管官方三缄其口,但实测下来,这次升级,在语义理解、逻辑推理、长文本处理、尤其是编程能力上都有显著提升!虽然官方还没放Benchmark,但用户口碑已经炸了!
代码能力杀疯了!直逼OpenAI o3?要说这次升级最让人“人已麻”的,绝对是代码能力!有网友在著名的代码测试平台Live CodeBench上测试,新版R1的性能竟然可以媲美OpenAI最新的o3模型高版本!这消息一出,整个圈子都沸腾了!
知名AI评论人Haider直接高呼:“大师兄DeepSeek又回来了~” 他用一个单词评分系统构建的编程挑战测试新R1,模型不仅给出了整洁代码,还附带了可运行的测试用olc,第一次运行就完美通过!Haider表示:“此前只有o3模型能做到这一点,但现在没有其他模型能做到了。”
⚠️先说说:DeepSeek的正确打开方式
在直播的时候,经常会遇到有同学反馈说:为什么网上测评说DeepSeek很强,但自己上手后效果就很差呢?
交流了才知道,原来大家用DeepSeek的方式错了:还停留在“上一代”的AI用法上。
首先,OpenAI于2022年12月推出ChatGPT后,掀起了AI热。但由于AI理解能力的不足,就需要提示词。
接下来就是一大段时间的「提示词工程」的科普与发展,我们就习惯了用AI的时候给它一大段提示词:角色、人物、限制、输出格式、示例等等。
但到了今年春节前夕DeepSeek把「深度思考」的能力带出来后,直接引爆了AI的新一轮革命,这也是它之所以这么瞩目的原因。
而深度思考是DeepSeek的优势:让你只需要简单的几句话,就能实现复杂的需求识别、意图理解与效果实现。
也就是说,用DeepSeek就只能用少量提示词,太多的话反而会限制它的发挥。
但用Claude的国外大模型,才需要大量提示词,因为它能很好的遵循规则(反过来说就是DS没法很好遵循规则)
我们分别用这两种方式来测一下效果。需求是开发一个股票行情的监控网站。
首先是「结构化提示词」:
请设计一个AI股票监控的可交互数据可视化平台的前端页面,该平台需在大屏幕上展示实时股票行情、AI预测分析和交易辅助决策功能。要求:
1. 页面布局与设计:
* 采用16:9的宽屏设计,适合在4K分辨率大屏上展示
* 设计暗色背景的界面,确保长时间监控时不刺眼
* 所有组件采用模块化设计,具有统一的视觉风格
* 包含页眉(平台名称/Logo、时间、市场状态)、主内容区、数据汇总/AI洞察栏和操作区
2. 核心数据可视化模块:
* 股票市场热力图,覆盖主要板块/行业或个股,使用渐变色标识涨跌幅或成交活跃度
* 关键股票实时数据监控,包含股价、成交量、买卖盘深度、技术指标(如MA, MACD, RSI)
* 市场重大事件/新闻资讯流,标记财报发布、经济数据公布、分析师评级变动、突发新闻等影响市场的事件
* 投资组合表现可视化,展示资产配置、个股盈亏、整体收益率、风险指标(如Beta, VaR)
* 自选股/关注列表仪表盘,展示所选股票的实时价格变动、关键财务指标、AI评级/预警
* 股价/成交量趋势图(如分时图、K线图),包含实时数据、历史对比及常用技术指标叠加
3. 数据分析与AI预测模块:
* AI驱动的股价走势预测模型可视化,展示未来短期(如1小时、1日、1周)内关键股票或指数的潜在波动区域和概率
* 多因素关联分析图表,展示宏观经济指标(如利率、通胀)、市场情绪、新闻事件与股价变动的关系
* AI驱动的股价异动/市场风险预警面板,采用不同颜色标识预警紧急程度(如价格急涨急跌、成交量异动、突发负面新闻)
* 关键绩效指标(KPI)对比/变化图表,展示投资组合收益率、夏普比率、与基准对比的超额收益等表现
4. 技术要求:
* 使用HTML5、CSS3和纯JavaScript实现(不使用任何外部库)
* 手写所有图表和数据可视化组件,包括K线图、成交量柱状图、热力图、折线图、饼图等
* 实现数据的定时刷新机制,支持1秒-1分钟不等的可配置刷新频率(根据数据源特性)
* 添加交互功能,如点击图表查看详细数据、时间周期选择、股票代码搜索、技术指标参数调整等
* 所有代码和样式需内联在HTML文件中
5. 示例数据:
* 为每个可视化模块创建合理的模拟数据集
* 数据应反映真实股票市场特征,包含牛市、熊市、震荡市以及不同板块/个股的波动特点
* 添加若干异常数据点(如股价闪崩、业绩爆雷、重大利好),用于测试AI预警和分析功能
请提供完整的HTML代码实现,确保视觉效果专业、数据展示清晰、整体布局合理,适合在大屏环境下长时间监控使用。
得到两个效果网站,你们猜哪个是DeepSeek,哪个是Claude4:
揭晓答案:上面的是DeepSeek,下面的是Claude4
有一说一,这波DeepSeek赢了,审美上更好看、布局上能确保控制在一个屏幕内看完。
由于这个看板太复杂了,真实情况是,DeepSeek和Claude我都各改了一遍才有这个效果,但也只是小改动:
但!DeepSeek只需要改一遍就有这样的效果,赢麻了。。。
接着我们看「一句话提示词」
继续猜,哪个是DeepSeek,哪个是Claude4:
揭晓答案:上面的是Claude4,下面的是DeepSeek
一句话提示词出来的网站内容确实是会更简单一些,但DeepSeek给的颜值视觉效果上更胜一筹。
Claude4属于中规中矩了。
看官老爷们,你们更喜欢哪个呢?
“悄悄升级”的背后:安全补丁还是战略调整?这次DeepSeek“小版本试升级”选择在英伟达发布财报前几小时,而且如此低调,背后深意引人遐想。 有分析认为,可能是针对今年1月《WIRED》报道的R1防护措施被绕过问题,进行安全补丁的增量迭代。 另一种可能是产品路线的统一和优化,为后续可能发布的R2铺路,减少双线维护成本。
毕竟,DeepSeek V3才在3月强化了推理,现在将类似优化下放到R1也合情合理。 甚至有猜测,这是DeepSeek一贯的“降价+先灰度”打法,意在抢占618电商大促前的流量,并通过频繁微更新在与字节Seed-Thinking v1.5、Claude 4等竞品的角逐中保持热度。
新R1的思考时间变长了,Hyperbolic Labs的CEO则表示新R1“仍然是唯一能回答9.9和9.11哪个最大的模型”。这似乎暗示了模型在深度推理和思维链(CoT)纠正能力上的增强,能够像Google模型一样进行深度推理,并像Claude一样创造性地构建世界观。
无论如何,DeepSeek R1这次“小版本试升级”所展现出的潜力,已经足以让整个AI行业为之侧目。
国产AI,这次可能真的要行了!
今天的内容就是给后面这两种方式打底的:这个工作流可以打包成工具供给它们调用。
来源:人人都是产品经理