摘要:1964年10月16日,在罗布泊沙漠的深处,在一阵宛如太阳般耀眼的闪光过后,面对着远方缓缓升起的蘑菇云,参与596工程的同志们沸腾了,原本安静的人群一下子成了欢乐的海洋。而在太平洋彼岸的美国,当中国原子弹横空出世的消息传到白宫的椭圆形办公室里之后,时任美国总统
1964年10月16日,在罗布泊沙漠的深处,在一阵宛如太阳般耀眼的闪光过后,面对着远方缓缓升起的蘑菇云,参与596工程的同志们沸腾了,原本安静的人群一下子成了欢乐的海洋。而在太平洋彼岸的美国,当中国原子弹横空出世的消息传到白宫的椭圆形办公室里之后,时任美国总统约翰逊却陷入了沉默,在沉默良久之后,他终于用一种充满沮丧的口气,无可奈何地承认了那个令美帝国主义者痛苦不已的事实:
“中国成功进行了原子弹试验。这是‘自由世界’最黑暗、最富悲剧性的一天。”
美国总统林登·约翰逊
时隔60年以后,大洋彼岸的又有一群美国人,他们也经历了一次和当年约翰逊一样的至暗时刻。
当地1月23日,在美国匿名职场论坛TB(TeamBlind)上,一名Meta公司员工发布的一篇帖子一石激起千层浪。在这篇题为《Meta的生成式人工智能部门陷入了恐慌》的文章中,这位Meta公司员工用一种悲哀中又带着几分戏谑的语气如是写道:
“550万美元,你们知道这是个什么概念吗?Meta公司的生成式AI部门里头有很多所谓的‘领导’,他们之中每一个人的年薪都超过了这个数字。我们投入了那么多钱到底都花到哪儿去了?这些享受着高薪厚禄的所谓‘领导’又该怎么去向公司高层解释他们的存在意义呢?DeepSeek就已经足够可怕了,自它横空出世以来,我们Mate的工程师都在没日没夜地疯狂对它进行拆解研究,并试图从中抄袭一切我们能够抄袭的东西,并希望借此复制出一个逆向的DeepSeek出来。可都没等我们抄明白上一个版本呢,中国人就发布了他们的最新版本DeepSeek-R1,这下事情变得更糟糕了。当对手的更新频率已经超过了你的抄袭速度的时候,你哪怕不是干我们这一行的也应该心里有数了。家人们,还有高手!大的要来了!”
其实不光扎克伯格的Meta,我估计这会儿山姆·奥尔特曼的OpenAI公司也挺焦虑的。因为OpenAI训练出来的 GPT-4o模型的成本高达1亿美元,这个数字几乎是深度求索训练同类模型成本的近20倍。
虽然Mate和OpenAI在AI这块花了比深度求索多得多的钱,但是最后他们搞出来的大语言模型却并没有展现出比DeepSeek更强的技术竞争力。毫不夸张地说,在这场没有硝烟的AI革命中,中国再次复现了“两弹一星”的奇迹——既用最低的成本、最高的效率,在最严苛的技术封锁下,完成了对西方霸权的弯道超车。
今天美国宣布对华禁运高端显卡,就相当于当年中苏交恶。苏联撤走对华援助专家,妄图通过这种方式来迫使我们知难而退,但是以邓稼先和于敏为代表的中国科学家却选择迎难而上,最终创造了震惊世界的科技奇迹。
我现在看深度求索搞出来的DeepSeek模型,很是有种看于敏他们当年搞出来的中国氢弹的感觉。在于敏的团队提出“于敏构型”之前,全世界都是以美国人最先提出的“泰勒-乌拉姆构型”(简称TU构型)作为指导原理开发核聚变武器的,因为氢弹最早就是美国人搞出来的嘛,完了苏联和英国也是跟着美国那一套学的。
我们搞氢弹一开始也不例外,在2021年播出的电视剧《功勋》之《无名英雄于敏》中,雷佳音饰演的于敏在剧中有一场戏是这么演的:项目组根据美国科学期刊刊载的学术论文,大致推断出了TU构型的原理。
TU构型没有想象中的那么复杂,但是有一个缺点——试错成本太高,以当时中国的国力来说很难承受。如果要通过科学实验的方式来确认这一技术路径的可行性,我们至少要花费3年的时间、并付出数亿人民币的成本,这对于当时就吃饭都成普遍问题的中国来说是不可接受的。
在这种情况下,于敏力排众议,决心带领团队独自摸索出一条适合中国国情的氢弹研制之路。在克服了常人难以想象的重重困难之后,1965年9月,于敏和他的同志们终于在理论研究上取得了突破性进展。
此后,为了验证方案可行性,他带领团队来到了中科院上海华东计算机研究所,动用了当时国内最先进的、同时也是唯一一台能以每秒5万次的运算速度进行计算的电子计算机。两个月后,于敏设想的模型在计算机验算中取得了成功,人类的氢弹理论研究由此在西方模式之外延伸出了一条东方道路。从此之后,美国的TU构型不再是解开制造氢弹难题的唯一方程式,中国的于敏构型犹如长坂坡阵前的常山赵子龙,单枪匹马,从80万曹军的重重包围之中,浴血杀出。
有关TU构型和于敏构型二者的区别,我就这个问题问了一下DeepSeek,完了它给了我一个我觉得很有意思的回答:
用TU构型来搞氢弹是典型“大力出奇迹”的做事逻辑,这种构型的好处是简单粗暴,适于量产和造大氢弹。美国的B-41氢弹(2500万吨TNT)和苏联的“沙皇炸弹”(5000万吨TNT)均基于此设计。
但TU构型也存在一些明显缺点。该构型好比一家美式连锁快餐店,采用标准化生产流程,卖的都是预制菜。其中一些重要的食材,比如液态氘,需要超低温保存。你为了保存它还得配一大堆昂贵的冷却设备。这样造出来的氢弹成本会很高,而且又笨又重。以美国第一种热核武器试验装置“常春藤麦克”为例,该装置重达82吨,其中光制冷设备就占去了一半的重量。
而于敏构型的思路则和TU构型大相径庭,DeepSeek管这叫“中式四两拨千斤”。于敏构型对于材料和计算的精度要求极高,相当于用绣花针雕微缩景观。利用这种技术造氢弹,燃料利用量要比TU构型高得多,而且不依赖复杂的冷却设备。所以,我们基于于敏构型搞出来的中国第一颗氢弹就比美国的“常春藤麦克”轻巧得多,爆炸当量虽然达到了300万吨TNT,但是总重却仅有3吨。
和TU构型相比,利用于敏构型造出来的氢弹具有小而精的特点,这对重量敏感的导弹和飞机特别友好。我国造出来的第一颗实战化氢弹“狂飙一号”,甚至用强-5强击机就能挂载。
不仅如此,我们还是在五常之中同时最少搞出氢弹的国家。美国用了8年零6个月,苏联用了4年,英国用了4年零7个月,法国用了8年零6个月,而中国只用了2年零8个月。此外,和主导了我国原子弹工程的邓稼先等人不同,于敏是完全土生土长的中国科学家,他系北大研究生毕业,从未出国留学,但研究水平高得吓。甚至就连钱三强老爷子都曾对于敏做出过这样的评价:“于敏填补了我国原子核理论的空白。”
我为什么要在这里花这么长的篇幅向大家介绍这段往事呢?因为我在出这期节目的过程中看到了《科技日报》在今年1月中旬刊登的一篇报道《深度求索大模型:“花小钱办大事”》,其中有很多细节,让我越看越觉得有种历史照进当下的深深感慨:
深度求索训练出来的DeepSeek-V3模型,相较上一代产品能力得到了大幅提升,但训练成本有557.6万美元,仅用了2048块上一代H800显卡,耗时不到两个月。而相比之下,OpenAI仅仅是为了训练出GPT-4o模型就花了1亿美元,用了1万块更先进的A100显卡,花费的时间也是深度求索的好几倍。包括创始人梁文锋在内,深度求索团队规模仅有139人,而且这些研究人员基本上都是国内顶尖高校的应届毕业生,又或者是还没毕业的博四、博五的实习生,也还有一些毕业才几年的年轻人。在接受采访的过程中,梁文锋特别提到,他们搞DeepSeek-V2模型的时候没有用到海外回来的人,全都是咱中国本土培养出来的苗子。而反观山姆·奥尔特曼的OpenAI呢?整个团队仅人员规模就达到了1200人,人员构成复杂,美国本土培养出来的人才并不占绝对多数,其中甚至还有不少华人面孔。1995年1月,香港曾经上映过一部名叫《金玉满堂》的美食贺岁电影,它尾声部分的高潮情节,有一场戏是这么演的:满汉楼和超凡饮食集团之间的满汉全席大比拼进入到了第三轮,双方比试的菜肴是猴脑。猴子是保护动物不能吃,所以双方都只能另辟蹊径。熊欣欣饰演的超凡饮食集团老板,虽然厨艺过人、但品性败坏的黄荣,以羊脑来代替猴脑,并用天九翅和虎鲨牙粉等金贵食材来调味,最后做出了可以媲美猴脑的“齐天大圣会虎鲨”,并且获得了三位评委的一致好评。
《金玉满堂》
为了压倒满汉楼,黄荣在比赛过程中用尽了各种卑鄙手段。就在最后他自以为胜券在握,满汉楼的所有权已是自己囊中之物的时候,满汉楼一群土生土长的中国厨师,尤其是钟镇涛饰演的廖杰和赵文卓饰演的龙崑保,他们硬是顶着各种不利因素,整出了一个令在场所有人都惊掉下巴的绝活:用椰子壳模仿猴子的脑壳,用神乎其神的刀工硬生生把豆腐脑给雕刻成了猴子脑的形状,然后再用好几种不同的常食动物脑花来进行混合调味,最后愣是烹调出了足以以假乱真的“生滚猴脑”,惊艳全场。
如今,在中美两国如今这场你追我赶AI大角逐之中,我似乎也在奥尔特曼、扎克伯格和梁文锋这些人的身上,看到了熟悉的影子。奥尔特曼、扎克伯格是黄荣,而梁文锋则是廖杰、龙崑保。事实证明,要想把菜做得出彩,光靠猛堆料和使下三滥的招数是没用的,得动脑子,得别出心裁,最重要的是,得走正道。
做菜如此,做人做事也一样。老子说,治大国如烹小鲜,我相信其中的一些哲学道理用来评价中美两国的治国理政和发展道路也是适用的。
如果在另一个平行世界里,我们没有搞出AI,梁文锋也没有创建深度求索,而是奥尔特曼他们的OpenAI公司工程师团队的一员。要是这样的话,我相信中国人最后还是会研究出属于我们自己的大语言模型的,只不过那就是《横空出世》中李幼斌饰演的陆光达(原型是邓稼先)和苏联专家的戏码了:
《横空出世》
美国采取极限制裁政策,宣布禁止对华出口一切高端芯片和显卡,还要迫害并驱逐美国的中国科研人才。在旧金山教会区的先锋大厦,OpenAI的总部里,梁文锋正在收拾自己的工位,准备不日启程回国。在回国那天,旧金山下起了大雨,奥尔特曼开着他的布加迪威龙,把梁文锋送到机场。车停之后,梁文锋打着伞,两人缓缓走向候机楼,快到的时候,奥尔特曼一把将伞接过去,然后和梁文锋说:
“梁,在这个世界上,伞永远掌握在高个子手中”。
梁文锋听罢,一言不发,只是径直走出伞外,任凭滂沱大雨如何下。梁文锋的眼神中写满了坚毅和不屈,那就是中国的人工智能科研工作者在面对美国同行时最直截了当的回答。
不只是陆光达,在那么多为了让祖国的人工智能技术早日赶超世界先进水平的中国科研团队里头,他们之中也应该会诞生一个冯石将军。每当聊起中美两国的人工智能竞赛,这个冯石就会以一种虽然粗糙,但却极富生命力的话语来激励大家:
“人工智能,大语言模型,在今天这个世界上,要想我们不受欺负,那就不能没有这个东西,所以我们就是砸锅卖铁,也得把它搞出来。”
“中国的大语言模型比美国的落后,中国人用美国的ChatGPT还得看人家的脸色。这口气窝囊啊,我忘不了我们中国的科研工作者被美国算力霸权挤兑欺凌的模样,他们挣扎着、哀叹着,还要忍受润人殖子们的冷嘲热讽。广大中国的普通网民更是可怜啊,人家封锁你大陆的IP地址,你付了钱也不能大大方方地用,被美国抓到了还要封你的号。”
“可尽管这样,咱屈服了吗?没有!咱中国人、中国的科研工作者,从来就没怕过他美国!应该说,美国是一个美丽的国家,美国有很多善良的人民,可他的政府,还有他的企业,不应该像现在这样,动不动就要欺负你,让你就想对他大喊一声,NO!去你妈的!我就是咽不下这口气!”
一代人有一代人的使命。
一代人有一代人的担当。
一代人有一代人咽不下的那口气。
所以就有了一代人必须去摘下的“两弹一星”。
横空出世,莽昆仑,阅尽人间春色。
飞起玉龙三百万,搅得周天寒彻。
以DeepSeek为代表的国产人工智能大语言模型,正在向我们招手。
看呐,同志们,我们的原子弹、氢弹又到了。
来源:孤烟暮蝉