摘要:在《我看见的世界》一书中,AI教母李飞飞多次提到通过识别手写邮政编码研究AI的杨立昆——AI发展的奠基人—“卷积神经网络之父”。杨立昆在卷积神经网络和图像识别领域做出了重要贡献,是人工智能行业最杰出的科学家之一。杨立昆(Yann LeCun),于1960年出生
在《我看见的世界》一书中,AI教母李飞飞多次提到通过识别手写邮政编码研究AI的杨立昆——AI发展的奠基人—“卷积神经网络之父”。杨立昆在卷积神经网络和图像识别领域做出了重要贡献,是人工智能行业最杰出的科学家之一。杨立昆(Yann LeCun),于1960年出生于法国巴黎附近,担任 Meta首席人工智能科学家和纽约大学教授,2018年图灵奖(Turing Award)得主。著有《科学之路:人,机器与未来》。
近日, 杨立昆接受海外播客This Is IT 的专访。以下为杨立昆访谈分享精要:
未来十年将是机器人的十年
过去一两年,我们见证了许多机器人公司的崛起,他们制造人形机器人等设备,演示效果令人印象深刻。然而,这些机器人的能力非常有限。它们无法完成人类能做的事情,并非因为缺乏身体能力,而是因为智能化程度不足以应对现实世界。因此,许多公司寄希望于AI在未来三到五年内取得快速进展,这样当他们准备大规模销售和生产这些机器人时,AI的进步能让它们具备足够的智能。这是一场高风险的赌注。如果我们能够构建理解物理世界、拥有持久记忆、能够推理和计划的AI系统,那么我们就有能力开发出适应性更强的机器人。我无法断言这是否会在未来三到五年内实现,但在未来十年内,AI领域很可能取得重大突破,从而创造出更通用的机器人。因此,我认为未来十年将是机器人的十年。
DeepSeek:过去十年AI发展得益于开放研究
如果任何研究或工作的成果以公开的方式发布,例如通过科学论文或白皮书描述其技术细节,并且代码是开源的,那么整个世界都会受益,不仅仅是创造者或团队。创造者或团队会获得声望、认可,甚至可能获得投资,但整个世界都能从中获得实际利益。这就是开放研究和开源的魅力所在。
过去十年AI发展如此迅猛,正是因为开放研究。我们必须认识到这一点。
举个例子,几乎整个AI行业在构建系统时,至少在研发阶段,都会使用一个名为PyTorch的软件。PyTorch是开放且开源的。最初是由我在Meta的同事,也就是FAIR团队开发的,后来由更广泛的社区共同维护。几年前,PyTorch的所有权被转移到了Linux基金会,因此Meta不再拥有它。Meta仍然是主要的贡献者,但不控制它。它基本上是由编程社区来管理的。整个行业都在使用它,包括OpenAI和Anthropic。Google有自己的解决方案,但Microsoft、Nvidia以及其他所有公司都在使用PyTorch。整个学术研究界也都在使用PyTorch。据我所知,在科学文献中发表的论文中,大约70%都提到了PyTorch。这表明AI的进步是建立在共享他人成果的基础上的,而这正是科学和技术进步的方式。
我再补充一点关于DeepSeek的信息。这是一项出色的工作。参与这个项目的人们提出了非常好的想法。他们做得非常棒。这并不是中国第一次产出具有创新性的成果。我们早就知道这一点,特别是在计算机视觉领域。中国对大语言模型的贡献相对较新,但在计算机视觉领域,这已经有很长的历史了。看看那些顶级的计算机视觉会议,一半的参会者都是中国人。那里有非常优秀的科学家,非常聪明的人才,所以无论是美国、欧洲,还是世界上任何其他地区,都没有垄断好想法。DeepSeek的想法可能会在几周内被其他人复现,并可能被整合到美国、欧洲、中东或其他任何地方的实体开发的未来版本中。现在,它已经成为全球知识的一部分,这正是开放研究和开源的魅力。这不是产品层面的竞争,而是在基础方法层面的合作。
数十亿用户每天使用AI需要庞大的算力支持
所有AI公司都预见到,在不久的将来,数十亿人每天都将使用AI助手。我现在戴着的眼镜,你可能看不清楚,但它们内置了摄像头。据说这是Meta制造的。没错,它们是Meta的产品。我们可以跟眼镜对话,因为它们连接了一个AI系统,我们可以向这个AI系统提出任何问题。我们甚至可以让它识别相机拍摄到的植物种类等等。因此,我们可以预见到,未来人们会佩戴智能眼镜,或者使用智能手机和其他智能设备,AI助手将成为他们日常生活中不可或缺的一部分,协助处理各种日常任务。这意味着这些AI系统将拥有数十亿用户,并且每天会被频繁使用。这需要庞大的计算基础设施来支撑,因为运行一个大语言模型或者任何其他类型的AI系统,成本都非常高昂。需要大量的计算能力,而大部分的投资都集中在这方面。
Meta今年在基础设施上的投资额大约在600亿到650亿美元之间,主要用于AI领域。微软也宣布了800亿美元左右的投资计划。另一方面,Stargate项目的投资额高达5000亿美元,预计将在5到10年内完成,但资金来源尚不明确。这些投资的规模都是相当可观的,与微软和Meta已经进行的投资没有显著差别。这些支出中的大部分是推理成本,也就是运行AI系统来服务数十亿用户的成本。这与训练大模型无关,训练大模型的成本实际上相对较低。
DeepSeek提高了训练效率,但不会阻止人类训练更大的模型
因此,我认为,最近几天金融市场对DeepSeek发布的反应——认为我们可以训练更便宜的模型,从而不再需要那么多计算机——是完全错误的。训练成本可能会略微降低,我们会回归到一个更合理的状态。我的意思是,训练效率只会略微提高,但因此,我们会训练更大的模型。最终,大部分的基础设施和投资都是用于运行模型,而不是训练模型。这才是投资支出的重点。
说数据已经耗尽是不对的
还有大量的文本知识没有被数字化。在许多发达国家,大部分数据可能已经被数字化了,但大部分数据都不是公开的。例如,大量的医疗数据是不公开的。此外,世界上许多地区还有大量的文化和历史数据没有被数字化。即使被数字化了,也往往是扫描文档,而不是纯文本数据。所以,说数据已经耗尽是不对的。我认为还有很多数据。这也引出了关于现实本质的问题,例如,我们不知道物质是如何在大脑中产生意识的,所以我们在这方面没有任何知识,但也许将来我们能够了解。我认为我们不应该过分纠结于意识的本质,但世界上很多人对此非常着迷。
深度学习在医学领域的应用非常有前景
深度学习方法已经被应用于乳腺癌的诊断,包括乳腺X光检查等。我有一位年轻的同事,他之前是我们实验室的博士后,现在是医学院放射科的讲师、教授,他非常出色。他最近发现涌现出了很多新的机会。他告诉我,“我打算和几个朋友一起创办一家公司。”所以,他们来找我,问我是否愿意担任他们的顾问。我知道他们的研究工作非常出色,所以我认为这家公司潜力巨大,我也很好奇他们能取得什么样的成就。应用范围非常广泛,主要包括使用深度学习进行诊断,尤其是在医学影像方面,但不仅限于此。事实上,他们希望直接从测量数据到治疗方案,而不仅仅停留在诊断阶段。我认为这非常有前景,也非常吸引人,这就是我支持他们的原因。
人工智能不会有人类的意识
目前的人工智能系统在很多方面都还非常“笨”。我们误以为它们很智能,是因为它们能很好地处理语言,但它们并不理解物理世界,也没有像我们一样的长期记忆。它们无法真正地进行推理或规划,而这些才是智能行为的关键特征。因此,我和我的合作者目前在Meta的人工智能研究实验室FAIR以及纽约大学,共同致力于设计一种新型的人工智能系统,该系统仍然基于深度学习,但能够在物理世界中运行,拥有长期记忆,并具备推理和规划能力。我认为,当我们成功构建出这样的系统时,它们将会拥有情感。它们会感受到诸如恐惧、兴奋或喜悦之类的情感,因为这些情感与对结果的预测有关。这些系统本质上将通过实现我们为其设定的目标来运作。我们给它们布置任务,它们会尝试确定采取哪些行动来实现这些目标。如果它们能提前预测到目标将会实现,就可以说这会给它们带来某种程度的满足感。反之,如果它们预测无法实现目标,就不会有这种感觉。
因此,在某种意义上,它们将拥有情感,因为它们能够预测一系列行动的后果。然而,我们不会刻意地在它们身上植入任何类似于愤怒、嫉妒之类的东西,也不会植入意识之类的东西,因为我们的意识是另一回事。我们并不知道意识究竟是什么,也没有一个明确的定义。目前还没有一个明确的指标可以告诉我们某个事物是否具有意识。例如,当我们观察动物时,我们可能都会认同灵长类动物和猴子是有意识的,也许大象和其他类似的动物也是如此。
(大白话:AI是根据人类的知识进行学习的,而意识这件事人类自己还没搞明白呢。)
正如杨老师所说,也许,当前AI发展的限制在于我们对现实的认知。我们无法创造出超越自身理解能力的东西。我们不清楚重力是如何产生的,也不知道量子世界如何转变为经典世界。
机器学习有三种范式:
机器学习在过去几十年的发展历程。基本上有三种范式。
第一种是所谓的监督学习,这是最经典的一种。在这种方法中,我们通过向系统展示图像(例如桌子的图像)来训练图像识别系统。我们会告诉系统:“这是一张桌子。”这就是监督学习,因为我们向系统提供了正确的答案。系统计算输出结果,如果输出与“桌子”不同,它就会调整自身的参数(即内部结构),使生成的结果更接近预期结果。如果我们在大量样本上重复这个过程,包括桌子、椅子、汽车、猫、狗等等,系统不仅能学会识别训练过的图像,还能识别出与之相似的图像,即使它以前从未见过这些图像。我们称之为泛化能力。
还有另一种范式,被许多人认为更接近人类和动物的学习方式,叫做强化学习。在这种方法中,我们不向系统提供正确的答案,只提供结果是好是坏的信息。在某种意义上,这反映了我们学习骑自行车的过程。我们不断尝试,一开始并不知道如何掌握平衡,会摔倒,这给我们一个信号:某些地方出错了。然后我们稍微调整策略,最终学会骑自行车。然而,事实证明,强化学习的效率极低。在训练系统下棋、围棋、扑克或其他类似游戏时,强化学习非常有效。我们可以让系统自我对弈数百万次,从而提高其技能,但在现实世界中,这种方法却行不通。如果我们想训练一辆自动驾驶汽车,仅仅依靠强化学习是不够的,汽车会发生无数次事故。类似地,如果我们教机器人抓取物体,强化学习可能只是解决方案的一部分,但并非全部,它还远远不够。
第三种学习方式,称为自监督学习。正是这种学习方式推动了自然语言理解和聊天机器人领域的最新进展。在这种学习方式中,我们并不训练系统执行特定任务,而是让它学习捕获输入数据(例如文本)的内在结构。我们选取一段文本,以某种方式进行破坏,例如移除一些单词,然后训练一个大型神经网络来预测缺失的单词。一个特例是,我们选取一段文本,隐藏最后一个单词,然后训练系统预测这个单词。大语言模型正是基于这一原理进行训练的。每个聊天机器人都是这样训练出来的。从技术上讲,某些方面会略有不同,但这是核心原理。我们称之为自监督学习。我们不训练系统执行特定任务,而是让它学习输入数据中的内在关联。这种方法的成功令人震惊。它非常有效,由此产生的系统似乎真的能够理解语言。如果再结合监督学习或强化学习进行改进,它就可以回答问题。
莫拉维克悖论
Hans Moravec是一位机器人学家,他注意到,计算机可以下棋、解决数学难题,但我们却无法让它们完成一些简单的物理任务,比如操纵物体、跳跃,而这些任务,动物却可以轻松完成。这是莫拉维克悖论的又一个体现,计算机可以轻松处理离散的对象和符号空间,但现实世界过于复杂,在一种情况下有效的技术,在另一种情况下可能完全失效。
一个很好的例子是比较我们通过感官(如视觉或触觉)获取的信息量,和通过语言获取的信息量。感官获取的信息量远大于语言。这解释了为什么我们拥有了大语言模型,可以创建聊天机器人。它们可以通过律师资格考试,解决数学难题,甚至可以写出非常流畅的文章。但是,我们仍然没有真正意义上的机器人。我们还没能制造出可以完成猫狗能做的任务的机器人,也没有实现L5级别的自动驾驶汽车。更不用说像17岁的青少年那样,经过20小时训练就能学会开车。显然,有些关键的东西缺失了,我们缺少的是训练系统理解复杂感官数据(比如视觉)的能力。如果我们希望机器像人类和动物一样高效地学习,这是必不可少的。
仅仅依靠文本训练,AI永远无法接近人类水平
一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,每个Token三个字节,总共大约是10的14次方字节,也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。一个人要花几十万年才能读完这些材料,这是海量的信息。现在,我们来比较一下这个数据量和一个孩子在出生后头四年里,通过视觉系统接收到的信息量。结果发现,两者大致相当。一个孩子在四年里,大约有1.6万个小时是醒着的,视神经每秒传输的信息量大约是2MB。计算下来,也是大约10的14次方字节,基本相同。也就是说,一个四岁的孩子所看到的视觉数据,和最大的语言模型训练所用的文本数据量相当。这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这非常困难。
物理世界远比语言复杂
物理世界远比语言复杂。我们误以为语言是智能的象征,因为只有人类才能操纵它。但实际上,语言很简单,因为它具有离散性,是由一系列离散的符号组成的。字典里的词汇数量有限。因此,我们不可能训练出一个系统来精确预测下一个出现的词,但可以训练它评估每个词出现的概率。这样,就可以处理预测的不确定性。然而,我们无法训练一个系统来预测视频里接下来会发生什么。我尝试了20年,很多人都有这个想法,大家都认为,如果能训练一个系统预测视频内容,那么这个系统就隐含地理解了世界的基本结构,也就是“直观物理学”,这是每个动物和婴儿都具备的能力,能理解物理定律。物体会下落,是因为重力把它拉向地球。婴儿大约在九个月大的时候就能理解这一点。猫和狗能在几个月内就理解重力,不是吗?猫尤其擅长利用重力,它们可以规划复杂的行动,比如攀爬、跳跃等等。显然,动物对“直观物理学”有很好的理解,但我们仍然无法在计算机中复制这一点。
(训练中)如果我们不用单词,而是用视频中的帧,将这些帧转换成类似于单词的Token,然后尝试训练系统预测视频中将要发生的事情,这是行不通的。原因在于,现实世界中发生的很多事情是根本无法预测的。要表达“无法准确预测将会发生什么”这一事实,在像视频这样的高维空间中,本质上是一个数学难题。在文本这样的离散空间中,这是可以做到的。我们可能无法预测某个特定单词会出现在文本的哪个位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上非常有效的技术,在视频或其他自然信号上却不起作用。
人类因独特性、多样性而更加强大
意识或许使我们人类变得独特,但这可能只是人与其他事物不同的众多原因之一。当然,我的观点也不一定完全准确。我的意思是,有很多因素让我们彼此不同。每个人都有不同的经历,学习不同的东西,我们在不同的环境中长大,我们的大脑结构也略有不同。每个人都是独一无二的。从进化的角度看,这种独特性至关重要,因为人类是社会性动物。这就是为什么当群体中不同的人拥有略微不同的技能时,会形成巨大的优势,因为他们可以互通有无、集思广益。如果每个人都完全相同,就不会有“人多力量大”的优势,但因为我们彼此不同,我们的多样性反而让我们更强大。这正是进化的结果,它可以通过大脑结构和功能的细微差异、神经递质、激素和其他因素的调控差异来实现,这些因素造就了我们的独特性。
人类和AI的思考方式不同
从观测中推导出抽象表征,这个问题对于深度学习至关重要。深度学习的核心就是学习表征。事实上,有一个致力于深度学习的主要会议,叫做“国际学习表征会议”(ICLR),这是我和Yoshua Bengio共同创办的。这足以表明学习抽象表征的问题对于整个AI领域,特别是深度学习,是多么重要。现在,如果我们希望一个系统能够推理,就需要一套完全不同的特性。本质上,传统AI中的推理或规划,不仅仅是在基于机器学习的系统中,从20世纪50年代以来,一直都是在寻找特定问题的解决方案。
例如,如果我给你一份城市清单,让你找出“经过所有这些城市的最短路线”,你会想,“我应该把距离近的城市连接起来,使总路线最短”。所有可能的路线构成了一个空间,也就是所有城市排列组合的集合。这是个巨大的空间,而算法(例如GPS导航里的算法)会在这个空间里搜索,找到所有可能路径中最短的那一条。(AI)所有的推理系统都基于搜索的思想。在可能的解决方案空间中,我们寻找最符合目标的那个方案。当前系统实现这种搜索的方式,也就是当前的大语言模型,很多都非常原始。它们在所谓的Token空间(也就是输出空间)中进行搜索。
本质上,系统会生成许多不同的Token序列,或多或少有些随机性,然后另一个神经网络会审查所有这些假设的序列,从中选出看起来最好的一个,然后返回这个结果。这种方式的计算成本非常高,因为它需要生成大量的结果,然后再从中挑选。而且这并不是人类的思考方式。我们思考时,不会先产生大量可能的行动,然后分析结果,再选出最好的一个。这不是我们的思考方式。
举个例子,如果我让你“想象一个立方体悬浮在你面前的空中”,然后“把这个立方体绕垂直轴旋转90度”。你现在想象出了一个旋转了90度的立方体,再进一步想象,告诉我,旋转后的立方体和旋转前看起来一样吗?一样的。答案是肯定的,因为我们知道立方体的特性,我们知道如果将它旋转90度,从相同的视角观察,它看起来仍然是一样的。
我们是在进行一种内在的、在我们的精神状态中的推理,而不是在外在的行动空间、物理世界或者输出结果中进行推理。我们在抽象空间中推理,这就是为什么我们拥有关于世界的“心理模型”,这些模型使我们能够预测将要发生的事情,从而能够预先推演,预测我们行动的后果。如果我们能够预测行动的后果,比如旋转立方体90度,或者其他任何事情,我们就可以规划一系列行动来实现特定目标,当我们有意识地执行任务时,我们所有的注意力都会集中在这上面,我们会思考需要什么样的行动顺序,比如组装宜家的家具,用木头搭建东西,或者做任何事情,基本上,当我们使用大脑来规划这类任务时,我们每天都在这样做。
价值投资理念、知识经验学习与交流平台,投资风险教育平台。
发现价值,践行价值。书会长期开展独立投研活动,定期发布原创研究报告,组织线下分享活动。
“行稳致远”,秉持“专业、谨慎、诚信”的精神,努力与会员和客户共同实现长期价值稳步成长。
来源:巴菲特读书会周立秋