DeepSeek下场,AI界一夜变天。 宏观趋势: 这个春节,国内外都在疯狂地讨论DeepSeek带来的影响,我们深入到各个科技社群讨论和各种前沿文章中,为你摘选对你深入认识DeepSeek最有价值的观点。摘要:DeepSeek下场,AI界一夜变天。宏观趋势:这个春节,国内外都在疯狂地讨论DeepSeek带来的影响,我们深入到各个科技社群讨论和各种前沿文章中,为你摘选对你深入认识DeepSeek最有价值的观点。
01
为什么大家会觉得DeepSeek厉害?
很大程度上是这两年国内赶得太费劲了,无论是大厂还是创业公司。 02 DeepSeek的意义 DS的意义在于它是开源的,在取得与GPT一样水平的能力后,开源给了所有人,让创业者可以站在相当于GPT的肩膀上持续开发。 这不仅会大幅降低创业者的门槛与成本,也是类似奥特曼们不太愿意看到的。 更可贵的是,DeepSeek显然算法上也更有优势,逻辑性更好,自我学习能力也更强。 03 谁是受益者? DS的创新,会极快降低2B、2C的 AI应用成本,极大规模化AI应用市场,提高生产力,同时随着AI对经济生活渗透的深化,会继续长期推高对芯片、能源的需求。 成本加速一个数量级接着一个数量级地干下去,相信未来整个市场会找到数据模型和算力的“拼多多”之道。2025年应该更加大概率加速应用端起飞,开启“Agentic AI”(代理型人工智能)元年。 过去能源对生产力的促进,要面对高技能人才世代培训的瓶颈,现在AI起来了,瓶颈弱化了。能源+AI可以直接更快推动文明的进化。 芯片(含半导体产业)应该是最大的受益者。 梁文锋在访谈中提到,未来对他们的卡点:高端芯片的禁运。 希望中国光刻机也突破一下,光刻机产业链比较长,需要的时间也长。时间是中国人的好朋友。04
DeepSeek带火了一个经济学名词:
杰文斯悖论,这个悖论指出,技术的进步可能会加速自然资源的消耗。 蒸汽机的进步可以使用更少的煤炭,却导致煤炭需求大幅上升。从这个角度看,社会需要更多的数据中心,更多的AI芯片。 DeepSeek带来的技术进步虽然使单个应用所需资源急剧减少,但总体需求反而增加,导致总资源需求上升。 在一个新技术产业的导入期和增长期,杰文斯悖论的效应明显。 20世纪90年代的手机叫大哥大,跟砖头一样重,一部卖2万人民币。人们都以为其暴利,其实那时的手机部门营收很低。 后来2G的全球通手机出现,一部只卖几千元,城市中产人手一台,才发现大降价带来真正的规模利润。 同理,当AI普及后,市场会变很大。 05 正如计算机有性能的摩尔定律, AI圈也出现了训练的成本曲线: 2020 年,Anthropic 的团队发表过一篇论文,推测算法进步导致的曲线平移约为“每年 1.68 倍”。很可能这一速度如今已经显著加快,大概是“每年 4 倍”左右。 其结果是:在保持模型质量不变的情况下,价格大幅下降的情况已经持续出现好几年了。 Claude 3.5 Sonnet 在最初的 GPT-4 发布 15 个月后才面世,它在几乎所有基准上都超过了 GPT-4,但其 API 价格却便宜了大约 10 倍。 DeepSeek-V3 的训练成本相比于一年前开发的美国现有模型减少了 8 倍左右。 06 不攻自破的5万块A100: 如果DeepSeek有5万多块A100,A100的价格大约在3-3.5万美元,取中间值3.25万美元来计算。5万多块A100,梁文峰要有16亿美金来买。 07 市值最高的10家公司, 可能将来替换一半: AI时代极致技术和产品火爆的速度越来越快了。 Instagram2年半获取过亿用户;TikTok9个月获取过亿用户;Chat GPT2个月获取过亿用户;现在DeepSeek只上线了几天就下载榜首全球第一,这样的速度下去,绝对超过ChatGPT。 这样的速度意味着,高质量的技术创新会更高效地结合商业红利和资本红利,这意味着五年后全球资本市场上现在的市值最高的十家公司很可能50%会被创新企业替代。 08 现实的微软: 微软转头也很快。微软表示,已将DeepSeek的R1人工智能模型在其Azure云计算平台和GitHub 开发者工具上提供。该人工智能模型将在平台的模型目录中提供,并将加入微软提供的 1,800 多个模型。 此举正值微软寻求减少对 ChatGPT制造商OpenAI的依赖之际。 09 所有的业绩会, DeepSeek都成了必问问题: 扎克伯格说,仍在评估其创新点,并计划吸收其中一些技术,无论技术来自哪里,AI领域的进步都需要相互学习,每次的技术发布都会推动整个行业前进。 微软 CEO 萨提亚说,Deepseek 有一些真正的创新。 用于生产芯片的光刻机巨头ASML(阿斯麦) CEO 傅恪礼说,DS会让带来更多半导体(存储芯片、逻辑芯片等)的需求。 10 DeepSeek对英伟达的威胁: Deep Seek有算力,但不需要像OpenAI那样储备算力。DeepSeek 强大的地方是大幅降低了预训练成本,所以对英伟达构成威胁。 因为推理不一定需要英伟达的芯片,所以DeepSeek 采用了AMD 的推理芯片。 英伟达为此作了回应表示,主要意思是DS 发布的新模型是一项“卓越的人工智能进步”,推理需要大量的英伟达 GPU 和高性能网络。 11 芯片之争,ADM逆袭: 在英伟达的辉煌背后,老牌半导体公司AMD却在苦苦挣扎,那就是 AMD。在 AI 芯片的浪潮中,它却被英伟达远远甩在了身后。 终于,AMD 的推理芯片迎来了曙光。DeepSeek 所代表的推理大模型,为 AMD 提供了一条可能的逆袭之路,双方迅速达成了多维度的合作,包括硬件和软件。 DeepSeek 这次替它做了很好的广告。 星座能源(Constellation Energy)单日下跌20.85%,Vistra能源暴跌28.27%,小型核电站概念股Oklo和NuScale能源分别下跌25.61%和27.53%。13
DeepSeek几乎完全开放:
DeepSeek的开放有多彻底?它不但开源、免费可下载和公开了训练方法,而且允许任何人用R1做数据蒸馏,去训练自家的模型,而且你可以商业化。DeepSeek甚至已经用市面上的两个开源模型,阿里的Qwen和Meta的Llama,蒸馏出来六个小模型供你随便用。它们的跑分都相当高—— 这些蒸馏出来的小模型很不简单。其中一个有320亿参数的小模型,数学和编程性能直接超越了o1-mini。 还有一个只有15亿参数的迷你小模型,数学和编程性能已经超过了当今最主流的两个非推理模型,也就是GPT-4o和Claude 3.5 Sonnet——而它小到可以运行在你的个人电脑,甚至是手机上!
14
DeepSeek 的独特秘密与优势:
DeepSeek 的秘密在于采用无人工干预的强化学习。如同AlphaZero自行摸索围棋技巧,DeepSeek 的模型自行掌握推理方法。 训练的基础模型 DeepSeek - R1 - Zero 在训练中自行涌现多种解题能力,如写下解题步骤、自动检查步骤、中断错误思考并重新推导、反思回顾寻找最优解、生成详细步骤、遇难题自动延长推理时间等。 模型还涌现出 “aha 时刻”,仿佛智能自行升级。 因 R1 - Zero中英文混合输出界面不友好,经人性化改进得到 R1。R1 每次输出都提供思考过程,这是OpenAI不愿完全公开的,阅读其思考过程让人感觉它像人一样。15
大模型蒸馏技术不是剽窃:
知识蒸馏是技术范式,更是AI行业的普遍共识, 连OpenAI自己也在蒸馏,并且承认Deepseek是独立发现了推理AI训练的核心路径。16
Deepseek不为人知的83小时:
25日-29日,83小时,Deepseek服务器集群,受到每秒超过2.3亿次DDos恶意请求,攻击总量相当于整个欧洲三天的网络流量总和。 老一辈互联网企业360安全大脑、华为云的泰山防控,阿里云算力调度算法,海康公共监控算法,网易游戏雷火游戏服务器集群,钉钉紧急通讯池,菜鸟网络物流调度算法,红客联盟等联合进行多层次多维度流量清洗,来守护DeepSeek这个后辈。 最终抗住此次攻击!29日DDos恶意请求已下降了97.2%!曾经的临安古城,各自为战的互联网企业携手抵御了一帮野蛮匈奴在数字领域的突袭!来源:趣闻捕手
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!