港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

360影视 欧美动漫 2025-05-23 16:15 2

摘要:大模型看起来已具备智能的形式:能陪你聊天,步步思考,做高等数学题,高效地写代码……这对很多人来说已经足够——足以带来更多研究成果、产品机会、巨额投资和股价攀升。

理解智能,并不只是研究者和工程师的课题。

文丨程曼祺 刘倩

大模型看起来已具备智能的形式:能陪你聊天,步步思考,做高等数学题,高效地写代码……这对很多人来说已经足够——足以带来更多研究成果、产品机会、巨额投资和股价攀升。

而马毅是那类觉得不够的人,他于无声处开始提问:智能的本质是什么?

这个问题的题面简单,答案却尚无共识。马毅认为,对智能的理解不应过于表面和短期,而应回到源头厘清智能诞生和发展的历史。

自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学,现担任香港大学计算与数据科学学院院长。他和团队提出的压缩感知技术,到现在还在影响计算机视觉中模式识别领域的发展。

在浩瀚的宇宙里,除了我们正在一手制造却尚不完全可解释的 “机器智能” ,人类所见识过的智能只有一个大样本:生命。

马毅认为,智能的本质是 “学习”——生命就是智能的载体,从 DNA 出现,到神经系统诞生和寒武纪物种大爆发,再到人类的语言与数学的诞生,智能有不同的表现形式;但不变的是,智能都是在学习外部世界的知识与规律,从而进行预测,使知识可以为我所用。智能是在寻找规律并利用规律,是一个对抗宇宙熵增的过程。

从智能的历史开始,本次访谈也延展讨论了机器智能的 80 年历史起伏,马毅自己亲历了部分变化:他刚博士毕业时,找不到对口方向的教职;他现在被引用最多的成果,一度没有任何会议接受。

马毅也分享了一个研究者的技术品味如何形成?“品味” 不仅是一种认知,也是认知被挑战时能继续坚持的自信。马毅的品味,使他进入了一个目前在 AI 工业界还不那么主流的方向:白盒大模型,和能实现 “闭环、反馈、纠错” 的机器智能。

今年 9 月开始,港大所有本科新生即将开始学习一门新的必修课——AI 通识课程,计算与数据科学学院主导设计了这门课,马毅会自己教智能历史的部分。

当 AI 和大模型越来越多进入我们的生活,理解智能、思考智能,并不只是研究者和工程师的议题。

推理模型没有在真正 “推理”;DeepSeek 这样的开源赶超者一定会出现

晚点:o1、R1 等推理模型是当前 AI 领域最主流和重要的方向,在你的认知里,它们是真的在做推理吗?

马毅:今天在清华演讲时,正好也有同学问这个问题。我是当老师的,就从老师角度来回答。

比如说教数学,很多学生看起来都能答题,但其中的逻辑推理能力至少有三个层次。

第一类学生是靠填鸭式的记忆来做题——看大量题,记住其中的模式,但并不一定真理解了。他们也能考出不错的成绩。

第二类学生是真正学懂了逻辑推理方法,遇到新问题时能严谨推理、判断对错,每一步都很清晰。

第三个层次更高,是在一个系统原本没有逻辑时,能 “发现规律”——比如欧几里得提出公理体系、亚里士多德提出三段论推理等,这是从经验中抽象出了新逻辑。

所以,逻辑推理能力可以分为三层:模仿,理解并严谨运用,抽象出新规律。但现实中,大家常把这三种混为一谈。我们做科研,就是试图厘清什么才算智能,才是真正的逻辑和推理,而不是笼统定义。

晚点:现在的 o1 和 R1 更多处于你刚才说的第一层吗?

马毅:至少目前,我没看到有严格证据显示大模型是在用逻辑来解决问题。

比如陶哲轩(知名数学家、菲尔茨奖得主)也在用数学题测大模型,他发现在训练过的题上,大模型能解决奥数级别的复杂问题,但同一个模型,又做不对小学阶段的初等数学问题。如果真具备严密推理能力,不该出现这种情况。

所以评价模型能力不能只看 “刷分” 表现。做学问要严谨地厘清问题和寻找证据。

晚点:现在推理模型展现的长思维链(long CoT)——它看起来能像人那样一步一步地思考,这实际上是什么?

马毅:这种 “思维链” 还是需要人协助生成,有两种主要方法:一种是由研究生或专家手工写解题或逻辑思考过程,即 “思维链”,供模型学习;一种是在一个不错的预训练基础模型上,给出 prompt(提示词),一步步引导模型自己生成一些思维链,再筛选出好的例子,让模型做 fine-tuning(精调),或者也可以让模型根据这些例子学会打分机制,这就可以用强化学习了(注:强化学习的核心思路是给系统表现设置对错反馈)。第二种方法的自动化程度更高、成本更低,但也需要人参与。

总之,这其中有很多不同环节。就像配中药一样,大家在尝试不同组合,各种成分都有。

晚点:所以业内经常说训练模型像炼丹。

马毅:确实有一些经验性的东西。工程界里,一个团队如果在某个路线上做得比较好,超过其他人,他们可能就会经验性地觉得这种 “配方” 更重要,是效果为王。而我们学界会更关注每种方法在系统中具体起什么作用,希望搞清楚机制。

晚点:DeepSeek 在 R1-Zero 中展现出了从 0 开始强化学习,也能取得不错效果,这是个多重要的突破?

马毅:我个人理解,现在要提升一个基础模型,也就是在一个比较好的预训练模型上提升编程、数学等能力,其实没太多秘密,核心方法主要是两种:

- 一是 Supervised Fine-Tuning(SFT,监督微调),通过提供范例,让模型学习并模仿其中的解题思路;

- 另一种就是 Reinforcement Learning(强化学习)。通过 “做对加分、做错扣分”,引导模型逐步掌握任务解法,它尤其适用编程、数学题这类有明确对错的推理任务。

到底哪种方法用得多,目前有争议。外界认为 o1 是先做微调,再做 RL;DeepSeek 又展示了直接做 RL 也可以。但这有夸张的成分,因为 R1-zero 的前提还是它的基础模型,也就是 DeepSeek-V3,V3 本身就很不错。而基础模型要好,前期也得做微调。

我们最近有篇论文,叫 Supervised Fine-Tuning Memorizes, Reinforcement Learning Generalizes(《监督微调记忆,强化学习泛化》),就解释这两种方法在提升模型推理表现方面相关、但不同的角色。结论是,两种方法都需要,一般而言,先微调,再强化学习效果更好。

晚点:你觉得这不是什么秘密,甚至推理模型都不是真的 “在推理”,但去年至今,整个行业都为推理模型振奋,不少人认为这是一次范式转移。这是为什么?

马毅:这有炒作的因素。OpenAI 去年有不少内部问题,没能继续拉开和其他公司的技术优势。可能是因为当时要融资吧,Sam Altman 在 o1 发布前各种暗示,似乎已发现了通往 AGI 的秘密。

结果 o1 实际做的事,就是用 SFT 和 RL 提升模型能力——这套方法学界之前也知道有效,也在做,Google 等公司都知道。这和当年 GPT 带来的变化不是一个等级的。

晚点:o1 在编程、解数学题、研究复杂问题上的效果确实有明显提升。

马毅:刷题是会有提升。我以前考 GRE,刷到了快满分,但刚到伯克利时简直又聋又哑,我写的第一篇文章,被导师狠狠骂了一顿。奥赛也类似,刷过题和没刷过题的人完全两回事,分高的人并不一定数学水平更高。

工业界追求效果没问题,但学术上我们要搞清楚问题本质。

晚点:DeepSeek 的影响力狂潮说明了什么?

马毅:我觉得 DeepSeek 有点像《皇帝的新衣》里那个小孩。 R1 验证了 o1 没有什么别人不掌握的秘密,同时它还能做得更便宜,更高效。

当然 DeepSeek 的 “便宜” 程度也被误读了。500 多万美元是最后一次的训练成本,而训模型的更大成本是前期试错。就像做题,第一遍很辛苦,最后誊一遍答案总是简洁、容易的。Google 等公司最后一次的训练成本也就千把万美元,没有贵那么多。

晚点:去年时,你有想过中国会冒出 DeepSeek 这样的团队吗?

马毅:我一点不惊讶。过去两三年我多次公开说过,开源很快会超过闭源。因为目前大模型在方法和技术上没有护城河,护城河在于数据、算法,试错时间、成本和过程中积累的经验,所以开源迟早会超过闭源。

就算中国没有出现 DeepSeek,也可能是法国、英国、美国的团队冒出来。这是一个 “where and when”(何时何地)的问题,不是 if or not(会不会)的问题。

从 DNA 到数学与科学,智能的一种本质和四种机制

晚点:你对当前 AI 发展的一些独特看法基于你对 AI 历史的了解和系统梳理。这次也想从问题的源头开始聊。你觉得智能的本质是什么?它最初如何产生的?

马毅:某种意义上说,生命就是智能,或者说是智能的载体。我很喜欢一句话,大意是:整个宇宙在熵增,世界越来越混乱,而生命则是熵减的。

我认为,生命和智能的本质,就是 “学习”——是要在还没有变得完全不可预测的世界里,找到有规律、有结构、可预测的东西,进而能预测外部世界,这才能生存。

(注:根据热力学第二定律,封闭系统的熵不断增长,即混乱度不断提升,在系统平衡时达到最大值;熵减则是混乱度减少的过程。)

晚点:低等生物也能学习和预测外部世界的规律吗?

马毅:这要回到大约 40 亿年前,生命在地球上的最初状态,这和现在的大模型也有关联。

生命最初怎么编码外部知识?是通过 DNA(脱氧核糖核酸)。可以说 DNA 就是世界上最早的大模型,它通过脱氧核糖核酸的碱基结构,有规则地记录外部世界的规律,这很像语言。

靠 DNA 学习的状态持续了 30 多亿年,这时单个生命体无法 “学习”,但通过一代代基因变异和自然选择,完成了物种层面的学习。即一个物种,整体上能跟环境形成闭环,能通过一代代遗传、变异,改进对外部世界的知识。所以单个生物个体没有智能,但进化本身实现了物种层面的智能机制。

晚点:大模型是不是主要就在这个阶段?因为现在的大模型,训好一版后不能自己迭代,需要人帮助它微调或重新训一版才能提升性能。

马毅:对,主要还在这个阶段。这一阶段的实质其实是整个生态系统在物种层面的 “强化学习”,要构造一个能给出正负反馈的环境。在生命进化中,自然界就是评判标准,变异得对,就存活,变异得不对,就灭亡,“适者生存,物竞天择”。

深度学习的发展也类似——AlexNet、VGG、Google Net、ResNet,再到 Transformer……过去十年不知道提出了多少网络结构,好多连名字都没人记得了,就像不知道多少 DNA 在亿万年的自然选择中被淘汰了,“一将功成万骨枯”。

晚点:物种层面的强化学习是生命前 30 多亿年的状态,最近 5 亿年发生了什么?

马毅:约 5.5 亿年前,生物开始出现神经系统,随后视觉也开始出现。神经系统和视觉给了单个生物体对外部具体环境的新记忆,这是除了遗传而来的 “大模型”,也就是 DNA 之外,对外部世界信息和规律的另一种建模。这相当于单个物体可以自己 fine-tuning(微调)了(但生物体的记忆和微调的优化机制不太一样)。所以个体生存能力大大提高,有了 5 亿年前的寒武纪物种大爆发。

一个直观的现象是,随着生命或智能形态越来越高,个体出生后与上一代相处的时间越来越长——鸟类 1 个月就离开父母自己飞了,猫科动物要一年,猴子要五六年……这是因为生物体逐渐摆脱了对预训练 DNA 的依赖,而更重视亲代传授、后天记忆、或在特殊环境中学到的东西。

从这里就能看到,随着智能形式提升,个体的智能系统减少了对预训练的依赖,而更多依靠后天记忆。这也和我们最近的工作很有关系,就是怎么让有了一定知识基础的系统,能自主更新、改进、完善记忆和知识,朝智能的第二阶段发展。

晚点:到这里是动物也有的智能,当生命进化到人类诞生后,智能又有了什么变化?

马毅:人出现之后,有了一件了不起的事——语言文字。这极大提升了群体获取和传递知识的效率,进而提高了生存概率。比如一个人找到了水,就能告诉其他人,大家不用再试一遍。有了文字后,知识又开始更高效地传给下一代,语言文字和 DNA 一样,都能代际传承知识,只是 DNA 变异很慢,而语言文字使文明发展速度大大提高。

然后到大约 3000 年前,更神奇的事发生了,在古印度、古希腊、古中国,哲学家、数学家开始理解一些抽象概念,1、2、3、4、5、6、7……数字可以延伸到无穷,进而出现了自然数、分数、实数、虚数等抽象代数概念,以及点、线、平面、三维甚至多维空间等抽象空间概念。在我看来,像数理逻辑、因果推理这些并非源于经验,而是一种升华,但这种升华背后的机制至今仍是个谜。

这样来看,生物的智能经历了 4 个发展阶段,从 DNA 到记忆,再到文字和科学;它们机制各有不同,后期的智能并没有取代早期智能,它们是叠加、并存的关系:

- 第一阶段,物种通过基因变异实现进化,靠的是强化学习、自然选择。

- 第二阶段,单个生命体出现神经系统,形成记忆,个体增加了自适应和不断纠错的能力。

- 第三阶段:文明依靠语言和文字流传。但这部分知识只是每个人能学到的外部物理世界模型的一小部分。

- 第四阶段:数学和科学产生,能对外部规律作高度概括、抽象、凝练,科学能被证实或证伪,在不断改进。

整个过程中,智能始终在做一件事——对外部世界的知识做编码。但要搞清楚,知识本身并不是智能,知识是智能活动的结果;通过观测和感知外部信号,从中抽取描述外部世界规律的能力,也就是 “学习”,才是智能。

现在很多人对大模型的误解,就是把知识当成了智能。如果一个系统仅是拥有知识,而没有更新和修正自身已有知识的机制,它仍然没有智能。

所以再大的大模型现在也没有智能,GPT-1 没有,GPT-2 没有,GPT-3 同样没有。但结合 OpenAI 工程师的不断研发和改进,GPT 的整个迭代过程是有智能的。这就像 DNA 本身没有智能,但它不断随机变异,再被自然界选择这个过程,具备了智能。

晚点:你总结的这四个智能阶段,是在模仿地球上的生物智能。机器智能有没有可能有不同的机制?

马毅:有可能。这就要回到对智能的严谨定义——真正的智能应该能自主获取新知识、修正已有认知。自然界的智能至少是一个可行解,虽然未必是最优解。

但至少现在看来,自然界的智能在效率上,比我们当前实现人工智能的方法不知道高多少倍。我们还停留在类似单细胞生命的阶段,主要耗费大量资源一版版训模型,系统还缺乏主动学习和纠错能力。

这也能解释,为什么杨立昆(Yann LeCun,图灵奖得主)经常说,现在的大模型还不如猫、狗聪明——因为大模型只有静态知识,没有像动物那样自主纠错、适应环境、产生个体记忆并不断修正的能力。

现在很多模型在尝试像人一样做推理,但主要是靠死记硬背,并没有真正理解,它都无法自己产生抽象自然数的概念。所以我常说,这个时代需要重新严谨定义图灵测试。

晚点:很多人认为图灵测试已经通过了。

马毅:实际上并没有。科学、严谨地看,刷题提分不是智能的充分证明,要设计合理的测试方式区分生搬硬套还是真的懂,目前缺乏验证大模型理解、抽象和泛化能力的科学评估方法。

机器智能的机制仍未完全明朗,炮弹很难连续两次打进同一个坑里

晚点:和当前 AI 发展直接相关的是机器智能的历史,去年我们聊到过,你认为目前对这部分历史的一些常见理解并不准确,而这又会影响当下的一些学术判断——比如 AI 的起点不是在 1956 年的达特茅斯会议,而是更早之前的控制论、信息论等。

马毅:对,达特茅斯会议是计算机科学视角下的 AI 起点,但更广义看,对智能的研究开始于 1940 年代研究动物智能和智能本身的特征。

从智能特征出发,引出了一系列相关重要成果:

- 发现神经网络特征,在 40 年代构造了第一个神经网络的数学模型。

- 控制论,认识到闭环反馈是生物改进学习和自适应的基本机制。

- 信息论,人造系统如何像大脑那样对外部世界信息编码、解码。

- 博弈论,当动物或人类处于未知环境时,如何提高自身决策能力。

图灵正是受这些研究启发,开始思考如何区分机器与人类智能,在 50 年代提出了 “图灵测试”。而 40 年代的研究可以看作是一种 “维纳测试”(维纳是控制论的提出者),主要是区分机器和动物。这又启发了 1956 年,一群年轻人开始研究人类智能特有的特征。

晚点:维纳、香农当时去研究控制论、信息论的背景是什么?为什么 1940 年代,科学家成批关注动物智能?

马毅:答案很简单,打仗。比如大炮怎么能有效追踪飞机?这和动物捕猎过程相似。科学家想搞清楚,动物为什么捕猎时反应又快又敏捷,还很稳定,而且决策能力能不断提升。

冯·诺依曼提出现代计算机构架(冯·诺依曼架构),就是为了实现维纳的控制论设想————用计算框架实现类似动物的反馈、决策和优化机制。他的手稿也描述了,维纳控制论如何启发了他的博弈论。

晚点:到 1956 年的达特茅斯会议,明斯基、麦卡锡等人对智能的研究有了什么不同?

马毅:当时信息论和控制论已建立得相对完善了,所以这些年轻人想找这些理论框架还没触及的人类智能领域,包括逻辑、抽象能力等。

他们也不想跟随主流。我觉得这对现在的年轻人也是启发,要出头,就别总想随大流。

晚点:所以对应到前面说的四种智能机制,他们是想研究数学、科学的那部分智能?

马毅:对,是最后一层。但他们只是在研究这些现象,并没有解释这些机制是怎么产生的——人类大脑到底在几千年前发生了什么变化,才开始从仅能从经验中获得知识发展到有抽象、逻辑能力。这种新能力和我们从观测物理信号中提取知识的机制是否一致?现在还不完全清楚。后者主要是通过去噪、压缩。

晚点:可以更清楚定义一下这里的去噪、压缩的意思吗?因为有人也会认为牛顿定律等物理公式也是一种 “压缩”。

马毅:这里指动物和人都有的直觉性能力产生的机制。比如在发现重力的数学表达之前,动物和人的大脑早就对重力 “建模” 了,所以我们踢球时能预判轨迹,一个物体掉落,能接住,而且这种预判非常精准。这是通过神经网络结构形成记忆,完成了预测。一些脑科学的研究指向这个过程是在做 “压缩”,比如猴子的大脑会把高维信息压缩到低维子空间。现在的 Diffusion Model (扩散模型,主流的视觉生成模型结构)就是在做类似的事。

而当人类有了数学和科学,又高度概括和抽象了原本从经验学到的东西,还能互相传授,能举一反三到很多情况。所以这两种方式(直觉和物理公式)都能预测外部世界,但它们的预测机制和泛化性不一样。

晚点:如果以 40 年作为智能研究的起点,至今的 80 多年里,整个人工智能或者说机器智能发展中有哪些关键时刻?

马毅:如果看深度学习、神经网络这条线,大致的过程是:

- 1940 年代,有了单个神经元的数学模型,最初大家忘乎所以,后来发现远不能模拟智能,神经网络进入第一次低谷;

- 1980 年代,通过视觉猫的视觉系统,发现了卷积性质,出现了卷积神经元,最早由日本科学家福岛邦彦提出,89 年时,杨立昆将其实现(CNN 卷积神经网络),并取得了不错的成果。同期,Hinton 为实现自编码做了大量尝试,也运用了一些物理学思路,去年诺奖的物理学奖也发给了他。不过自编码当时没引起重视。这之后,这个领域(深度学习)又变得很冷。

- 2012 年,新的决定性因素是有了足够的数据和 GPU 算力助力,深度学习得以真正爆发,成为转折点,随后扩展到图像、语音、语言、蛋白质等多个领域。

最近的十几年,神经网络的进步主要就是靠经验试错、不断淘汰优化,一步步走到今天。

晚点:这其中有什么共通的规律吗?

马毅:说实话,还真没什么特别明显的规律。因为一直以来深度学习都缺乏第一性原理,智能在做什么(目的)不很清楚,学习机制也不很清楚。

但有两条线索:一是从生物学获取灵感,比如单个神经元的建模、神经元排列方式、卷积结构、大脑皮层组织方式等,Hinton 很多早期理论创新就是受神经科学启发。二是工程优化,不断试错、改进模型结构,期间诞生了大量结构,不少已经湮灭在历史里。它确实像早期的生命进化。

晚点:这会让做 AI 研究有一种宿命感吗?一个方向,一个研究者的个人前途好像比较难被预测。

马毅:如果继续靠试错为主的方法论,确实会有运气成分。一个现象是,新进展、新框架的提出,往往不是哪个团队系统性推进的结果,而是像打炮一样,一会打这儿,一会儿打那儿——一会儿 DeepMind、一会儿 OpenAI、一会儿 DeepSeek,比较随机。因为现在的进步主要是靠经验和资源。

总有人问我这家大模型公司值不值得投,或者那家大模型公司值不值得投?我的意见都是,炮弹一般不会连续两次落在同一个弹坑里。除非真有方法创新,真能有系统、有规律地改进。

晚点:在对智能的机制理解还不完善的情况下,你觉得现在工业界靠不停去试带来的进展,能持续多久?

马毅:现在预训练已经到了边际收益递减的阶段。Grok-3 用了 20 万张卡,提升才 1% 多一点, GPT-5 到现在还没出来。(注:指 Grok-3 发布后,在 Chatbot Arena 上比之前的冠军的 PK 评分提升了 1.6%。)

就像靠基因突变和自然选择进化的阶段,生命也在前进,但走了 30 亿年也主要是单细胞生物。现在大模型也卡在这种低效演化里。

科研品味来自勇气和能力:一旦找对方向,证据会带来自信

晚点:技术 “品味” 对探索未知领域很重要。这里的 “品味” 是指——当一个领域没有太多可跟随的参照物时,能自己提出对的问题、做出技术判断,而且自信的能力,尤其是当中间出现波折时,仍能自信。其实你经历过这个过程,1995 年你从清华去伯克利时,目前变成 AI 主流方法的神经网络还很冷门,你是怎么逐渐进入这个领域的?

马毅:我是先在学生时代意识到了视觉的重要性。当时我在伯克利机器人组,我导师 Shankar(Shankar Sastry),还有师兄李泽湘都在做控制。

那时已经有了双足行走的机器人,能跑、能跳、能上楼梯,但都是提前编程好的,只能做预先设定的动作。

我老师就跟我说,你看这些机器人系统控制做得挺好,但它们是 “瞎” 的,没有大脑、眼睛,反馈,只有动作输出,没有信息输入,怎么闭环呢?这就是瞎动。

所以 Shankar 的组是第一个开始做视觉的,要让机器人能独立适应外部环境,当时我们是研究三维视觉,探索机器如何感知和重建外部世界。

到了我博士毕业找工作时,还是没有这个就业领域。我在伊利诺伊是在系统组教控制,没有 Computer Vision、3D Vision。比三维重建更冷的是视觉识别,所以李飞飞在自传里也说她 2006-2007 毕业时不好找工作。

就是在这样的环境下,一群研究者自发地探索感知、视觉重建、识别等问题。那时 CVPR 开会也就几百人,一个大教室就能坐下。

(注:CVPR 为计算机视觉领域顶级学术会议,2024 年 CVPR 参会者超过 1.2 万人。)

晚点:在找教职都找不到对口方向时,你还是觉得这个研究方向有前途。这种相信来自什么?

马毅:证据。科学探索本身充满不确定性,十个想法可能九个都失败,但一旦找对了方向,证据会给你带来自信。自信不是盲目乐观,而是来自数学、实验和逻辑上的验证——哪怕别人暂时还看不懂。

晚点:什么因素或经历可以帮助塑造更好的技术品味?

马毅:一是学术价值观。真正做科研要探索未知、打破常规,不应从众。能做出新东西的,往往是特立独行、能看到主流不足、发现现存问题的人,虽然他们一开始往往很难得到认可。

二是通过严谨学术训练,有严密的逻辑和实验能力。我读数学硕士时,老师就跟我说:“做数学家的第一条,就是把自己训练成世界上最难被说服的人。这样,当你找到一个证明并能说服自己时,才足以严谨到说服所有人。” 实验也要很严谨——数据、报告、现象判断以及假设验证,都得严谨,不要轻易下结论。

所以科研要有探索未知的勇气,也要有能力,这是形成科研品味的本钱。只有特立独行、没有训练,可能会变成 “民科”。最可怕的是自己不知道自己是错的。

晚点:伯克利对你的影响是什么?我们也访谈过你的师兄李泽湘,他当时说,伯克利对他的世界观和做科研的方式影响很大,那儿的氛围特别平等、自由,大家喜欢讨论、争论,不存在权威。

马毅:这非常了不起。我读博时,导师手下有 18 个学生,来自 13 个国家,大家没有等级观念,就是一心想把事情搞明白。

后来我自己在伯克利当教授,带的一些学生毕业后回来聊天,都说特别怀念这里,因为这儿的交流氛围很好,可以完全跨组开放交流。我组里就十几个学生,但开组会时经常有三四十号人来一起听,没有秘密。这在其他地方并不常见。

晚点:这也是对品味的一种培养,让研究者有更广阔的视角。

马毅:对,后来我发现,在伯克利,从同学身上学到的比从老师那儿还多,尤其是实用技能。学生间的合作也常常跨组,一起写论文、改代码、做各自擅长的事,你帮我,我帮你。这能提升人的综合素质。我也特别希望在港大,还有中国其他大学看到这样的氛围。

晚点:现在一些企业家和创业者并没有系统的 AI 研究背景,但他们在努力学习 AI,比如张一鸣就请冯佳时来讲解 AI 技术。你觉得他们能通过学习,对技术理解到什么程度?这也会影响投资和业务判断。

马毅:如果只是了解 AI 技术在做什么,有扎实的本科数学和科学背景就够了。要更深入,就需要更深的知识储备。我们去年在港大还真做了一件相关的事。

因为过去几年,不少企业家会来找我和同事请教 AI 问题,大家焦虑于要不要用 AI?怎么用?值不值得投?但我们每个老师也只深入了解自己研究的那部分。所以我们在港大开设了一个面向 CEO 和投资人的专门讲 AI 的班,类似 EMBA,由数据与计算学院主导,一方面让科研老师用通俗方式提供技术介绍和证据,另一方面邀请一线科技企业的人来分享真实的使用 AI 的经验——成功也好,踩过坑也行。

这个班原计划招 40-50 人,结果第一期来了 80 多位,主要是国内头部企业和上市公司创始人、企业高管和投资人。

晚点:这些 CEO 同学们的科学素养如何?

马毅:总体很好。他们都是成功的企业家,更想了解技术的本质,学习态度也诚恳,并非来交朋友的。这个班的出勤率很高,前面几个核心模块几乎全勤。

晚点:他们应该也会问一个问题——判断一个 AI 新成果靠不靠谱,有没有什么简单的原则或方法?

马毅:看是否有严格的证据,比如真实实验数据,而不是只看自媒体里讲的表现好的案例。我们也会坦诚分享负面案例或不确定的判断。

给港大所有本科生讲 AI,重要的是训练思考,不是给出答案

晚点:去年我们聊时,你提到当时港大正在计划 AI Literacy 课程,让 “AI 通识课” 成为包括文科、社科、医科、商科在内的所有本科生的必修课。因为我们未来都要和机器共处,需要理解机器。今年春季学期,港大 AI 通识课已开始试上,秋季会开始包含 4000 多名全部大一新生。这个课程怎么设计的?

马毅:我们分了几个模块:

- 第一,要让学生搞清楚 AI 和智能的基本概念;

- 第二,我非常强调历史,这部分是我自己在教,会涵盖生命起源时的智能、机器智能的历史;

- 第三,介绍具体技术本身,比如语言模型、图像处理、机器人等,讲这些技术的概念、作用和局限性;

- 第四是伦理问题,引导学生思考如何正确面对和使用 AI 工具,这涉及隐私保护、安全、法律规范等。

教学上,每个模块都有团队支持,每节课由多位老师协作设计,内容每年更新,确保学生接触到新的 AI 发展与研究成果。

晚点:最核心是想教给学生什么?

马毅:总的来说,是旨在让学生:一、了解 AI 的历史和概念;二、了解当前技术;三、思考 AI 技术对个人、行业乃至社会的可能影响。

但传授知识本身还不是最重要的,最终目的是提升学生的独立思考能力。所以我也跟授课老师强调,现在很多问题没有标准答案,要引导学生学会搜集证据、形成自己的想法,不要人云亦云。

因为技术会不断改进,炒作会反复出现。即便我们把当下知识解释清楚了,如果学生不能独立思考,以后还是会被误导。AI 本身是训练批判性独立思维的很好的主题。

晚点:这门课程怎么描述 AI 和人的关系?

马毅:课程会讲清楚智能的本质,然后让学生自己去判断如何与 AI 交互。关键在于启发思考,不是灌输答案。

晚点:学生们可能会有天马行空的畅想——AI 会不会产生自己的意识?AI 会是一种新生命和物种吗?你会怎么解答?

马毅:至少目前,AI 还在做机械的数据压缩和生成。学生了解这一点后,也就知道如何与当下的 AI 打交道了。至于未来,当智能机制被更全面地发现、实现,系统真正能自主学习、独立思考时,个人和社会该如何应对?我们现在可以探讨,但希望他们能客观认识当前的技术。

晚点:维纳在《人有人的用处》里讨论过智能机器对社会伦理和政治的影响。80 年前,他已在思考未来技术可能会压迫人,威胁人的尊严和价值感。现在关于 AI 和人的未来也有 “合作共生” 和 “对立” 的两种观点。从感性角度来说,你更倾向哪一派?

马毅:我没有确定答案。从历史看,智能机制并非人类独有,许多动物也有,自然界早把它 “开源” 了。人类能成为世界主宰,也是进化的阶段性结果。这些不同的智能过去可以共存,未来也可能有共存方式。

但另一方面,一旦机器能实现智能机制,在记忆、推理、学习效率上可能远远超越人类。那时我们该怎么办?这得留给大家一起思考。

A close-looped system is for an open world, no matter how small it is

晚点:你现在致力于研究怎么让机器系统有闭环反馈纠错机制,也就是向第二阶段的有神经系统和记忆的智能演进。这个方向是主流还是少数派?

马毅:其实从早期研究动物智能时就发现,几乎所有高级动物都是靠闭环反馈来纠错、学习、提升决策能力。这不是我们发明的,是自然界的选择。我相信它不是某一种方向,而可能是唯一的方向。真正有效的智能系统,都具备闭环反馈机制。

晚点:我和工业界的一些人交流你们团队的研究成果时,他们觉得这是故事会,是 “刷存在感”。

马毅:甚至还没有存在感了。但我们的初衷就是把问题搞明白,我们的信心也正来源于此。Hinton 前 30 年都没什么存在感,他的信心不来自一定找到了正确答案,而是知道自己提出了对的问题。

当然科学需要证据,不能只讲原理。我们过去几年就是在让白盒大模型、闭环反馈机制变得可实现、可验证。这个过程很痛苦,也可能很漫长。Hinton 也是等了很多年,直到条件成熟,有了更让人信服的验证,才被接受。这是我们现在正经历的过程。

晚点:你以前经历过类似过程吗?

马毅:我现在被引用最多的成果,一度就没有任何会议接收,大家觉得结果太好,可能作弊了。后来我们花了一个暑假做严谨对比,才被期刊接收。

科学家也是人,学术圈也有 “回音壁效应”,多数人相信当下的主流,不愿花精力理解新 “杂音”。就像这两年拿了诺奖的 Karikó(卡塔林·卡里科,生物化学家) 和 Ambros(维克托·安布罗斯,发育生物学家) ,一个当年被宾大降级降薪,一个没拿到哈佛的教职。

我常用这些故事激励年轻人:很多人觉得现在的方法就是通向 AGI 的阳光大道,其实阳光之下,新发现还会出现,那些没被看到的东西未来会颠覆认识。

晚点:具体到你对白盒大模型和闭环反馈机制的研究,从我们去年聊到现在,有哪些新进展?

马毅:这分两部分,一是原理发现和初步验证,二是大规模工程实现和验证。

白盒大模型,之前我们在学校已经验证了方法可行,现在在公司(马毅创立的忆生科技)是做产业化——用大量数据,在更大规模上做验证或改进效率。

这类偏工程化的工作往往不是学校愿意做和应该做的。学界应该做与工业界互补的东西:就是发现新原理和方向。这也是为什么要创立公司来做后面一部分的工作。过去十年一个让人失望的现象是,学术界被工业界牵着走。

(注:白盒大模型是指,为 Transformer 结构大模型里,从高维到低维的压缩过程中提供数学解释,以去除经验性的冗余,提高效率和效果。)

在闭环反馈自主纠错机制这块儿,我们在尝试不同路径。现在的主流是用单一模型做开环系统,我们认为这并不自然。大脑不是单一的一个环,而是多个环在并行。大脑皮层中有几十万个形态相似的皮质柱(cortical column)在各自编码、解码,协同处理信息,每个都是闭环系统。我们正在探索构建更接近人类大脑形态的架构,实现多路闭环反馈。

晚点:所以这个大的闭环系统的结构是很多模型组合在一起,其中每一个都是闭环的?

马毅:至少人脑的形态是这样一个并行、分布式的、有层次的结构。人类大脑只有前额叶的一小片区域在处理自然语言,其他绝大部分在处理视觉、触觉、声音等其他物理信号,小脑则负责运动控制。

晚点:闭环系统的一个特点是,能在开放的真实物理世界中运转和自己学习,它会更多指向具身智能吗?

马毅:对。我常说,“A close-looped system is for an open world, no matter how small it is.” 哪怕小如一只蚂蚁,也能在大世界里自主学习。

相反, “An open-looped system is for a close world, no matter how big it is.” 所以一个端对端的开环系统,只能应对封闭世界,这个模型不管多大,也不能自我改进。

晚点:端到端和闭环是互斥的吗?

马毅:不完全互斥,这是两件事。目前为止,大模型训练好后,如果不借助人为的微调或迭代就不能改进了。这就像只靠 DNA 来学习的阶段,从受精卵形成那一刻起,个体能力就被预定了,生物完全靠本能而活。

晚点:看好 VLA 方法的人会说,这个方法确实提升了泛化性。

马毅:这就好比造飞机,现在的飞机能飞、能载客,也能盈利,但这是不是飞行最高效的方式?未必。

当前的 VLA 是通过大量数据和算力,把感知、视觉、语言和动作整合在一起,它能提升机器人性能,不过方式比较简单粗暴。

晚点:什么时候能实现更优雅的闭环机制呢?

马毅:You never know. 虽然概念很清晰,但实现时,工程是否到位、方法是否正确,都是变数。GPT 花了好几年才验证效果更好。科技探索关键在于找对方向,方向对了,已经很幸运了。

晚点:探索前沿方向有诸多不确定性,而你现在也创立了公司来做工程实现和验证,公司是需要更确定的发展节奏的。你对处理这二者之间的张力有了什么体会?

马毅:我一直相信,无论做学问还是做公司,都要有品味和信念。阿尔特曼曾说,GPT 有什么用他一开始也不知道,但他相信让机器理解自然语言这件事值得做。

很多技术在没突破临界点前,看起来都没用,但一旦突破,就可能释放巨大价值。如果等看到特别明确的收益才做,那是纯商业公司,而不是科技公司。

晚点:当你身边现在的一些非 AI 研究者,为 AI 感到焦虑或困惑时,你会和他们说什么?

马毅:焦虑来自不了解。所以我喜欢写书,只有自己梳理一遍,才会发现哪里没弄明白。

AI 现在还是一个黑盒子,正因为是黑盒,一部分人觉得很难搞明白,另一部分人会利用它的模糊性炒作或制造恐惧。迷信是这么产生的,(某些)权力也是这么产生的。

题图:2025 年 4 月底,马毅在人工智能领域顶会 ICLR(International Conference on Learning Representations,国际表征学习大会) 上做学术报告。来源:马毅。

来源:晚点LatePost

相关推荐