摘要:5月13日,李飞飞接受海外博客High Signal访谈,本次对话中详细解释了“以人为本AI”的核心内涵、实践维度及其在医疗、教育等多元领域的广阔应用。此外,还聚焦于空间智能AI的前沿进展、三维基础模型的未来构想、开源生态对行业的关键作用,并就如何辨别AI发展
本文来源:数字开物
5月13日,李飞飞接受海外博客High Signal访谈,本次对话中详细解释了“以人为本AI”的核心内涵、实践维度及其在医疗、教育等多元领域的广阔应用。此外,还聚焦于空间智能AI的前沿进展、三维基础模型的未来构想、开源生态对行业的关键作用,并就如何辨别AI发展中的真实信号与潜在风险,以及构建健康、可持续的AI生态系统等议题展开交流。
李飞飞指出,空间智能作为整体智能及未来AGI的关键组成,通过对三维世界的建模、理解与交互,将为内容创作、互动体验、机器人技术及各类培训教育带来革命性变革,它代表了一种超越传统文本的“空间语言”。她认为,三维本身作为一种计算与编程语言的潜力被严重低估,而具备空间特性的三维世界基础模型正是当前生成式AI时代所缺失的关键一环,其创办的World Labs正致力于此。
以下是本次对话实录
经数字开物团队编译整理
01
关键转折:从物理初心到以人为本的AI
主持人提问:您拥有非凡的职业履历,涉足科研、创业、教育等诸多领域。在您的发展历程中,有哪些至关重要的转折点?
李飞飞:谢谢你的提问。我对自己至今的职业生涯心怀感激。要说关键的转折点,第一个是发现我的“初恋”——那绝对是物理学。当我还是个十几岁的少年,大概十二岁时,我邂逅了物理学的世界。它起初看起来很简单,只是力学、光学、电磁学,却为我打开了一扇全新的大门。那种痴迷,那种好奇,那种科学世界独有的奇妙魅力,从那时起便一直伴随着我的人生。所以,那是一个关键时刻。另一个关键时刻,是在我攻读博士学位的初期,也就是AI发展的极早期,我投身于AI研究。这在某种非常個人的层面上是关键性的,因为那时AI默默无闻,没有任何光环。世界对AI鲜有提及,那正是AI的“寒冬”时期。事实上,“AI”这个词本身都很少被用到。但正是在那时,我发现了一门能够探究智能核心的科学。它为我开启了研究智能如何运作以及如何创造智能机器,特别是视觉智能机器的大门。那是一段令人难以置信的、令人难以置信的旅程,尤其是在初期那些奠定基础的岁月,对我而言至关重要。
当然,ImageNet项目是一个里程碑式的时刻。它持续了好几年,从最初的构想到具体实施,再到挺过无人问津的阶段,最终迎来了ImageNet挑战赛,以及卷积神经网络和深度学习借助ImageNet和GPU的强大算力实现复兴。这整个长达五年的历程,对我来说是一个无比重要的时刻,一段漫长而深刻的时光。
时间快进到大约2018年,作为一名计算机科学家、技术专家和AI教育者,我迎来了一个顿悟的时刻:AI已不再仅仅是我个人的“私爱”。我们这一代人,包括我自己的工作在内,已经将AI以一种超乎我想象的变革力量和影响力带给了全世界。但正如能力越大,责任也越大,AI已经演变为一项文明级别的技术,它既带来了巨大的希望和机遇,也伴随着深刻且影响深远的人类层面的后果。那一刻,我意识到我应该回到Stanford University,参与创建以人为本AI研究院 (Stanford Human-Centered AI Institute) ,致力于研究并倡导在AI的发展中必须将人类价值观置于绝对核心的理念。所以,对于像我这样的技术人员而言,那一刻让我明白,我所热爱的科学,其意义远不止于技术本身。
我就不一一列举了。最后但同样重要的一点是,我现在正踏上的一段新征程——成为一名创业者,创立了World Labs,并与我之前的学生以及当今AI时代,特别是生成式AI (Generative AI) 领域的顶尖技术人才在World Labs共事,致力于创造我们认为世界前所未见的技术和产品。这真的非常令人兴奋,也充满乐趣。
主持人提问:回顾您从物理学到计算机视觉,再到以人为本AI的历程,复杂性不断提升,路径也并非总是清晰。在整个过程中,您是否有如同“北极星”般的个人指引?是什么在驱动着您,您又是如何找到那些让您得以沿着这条道路前行的信号的?
李飞飞:谢谢Hugo提出这个问题。很多年轻人都会问我类似的问题,因为回过头看,一切似乎都是顺理成章、线性发展的。但事实并非如此,尤其对于一名科学家的探索之路,我想,对于创业者而言也是一样。我们常常行进在未知的黑暗中,充满不确定性。未知远多于已知。我最近出版了一本书,名为《我看见的世界》 ,而那本书的核心主旨,正是关于“北极星”的探讨。如果要说有什么一直指引着我,那绝对是好奇心。我认为,好奇心是如此根本的人性特质,是人类价值观与创造力的核心所在。我一直都以一种近乎执拗,甚至带点天真般的勇敢去追随我的好奇心,因为我觉得这本身就充满乐趣,并且它能超越个体,超越眼前所见。这就是我的“北极星”。而我的好奇心,始终都倾注在对智能科学的探索和智能机器的创造上。正是这份好奇心,引领我在人生的旅途上走了很远。
随着这份探索的深入,以及我作为一名科学家阅历的增加,我发现另一个重要的“北极星”是坚信技术能够造福人类。这种对技术向善的确信和乐观精神,指引着我去做那些以人为本、蕴含着我所认同的人类价值的事情。这是另一颗持续指引着我的“北极星”。
主持人提问:您能否为我们定义一下“以人为本”的AI,或者提供一些启发性的思路,帮助我们思考在当前AI系统的背景下,我们应该如何看待它以及它可能意味着什么?
李飞飞:“以人为本”是AI的又一颗指引方向的北极星。AI可以是一系列技术,也可以是产品和服务,但对我来说,那颗北极星就是为人类和个人福祉服务。这就是我如何看待“以人为本”。当然,这会受到我们所处社会的价值观的指引。同时,在我的脑海中,我将“以人为本”设想为三个同心圆。最内层是个体:我们希望创造能够帮助个体的技术,赋予人们力量的技术,尊重人们尊严的技术。我在Stanford从事了大量医疗保健领域的工作,特别是利用智能传感器帮助乐龄人士和慢性病患者改善生活质量,并捕捉那些若不加干预则可能导致严重后果的临床相关时刻。即使怀有最美好的初衷,AI技术实际上也可能无意中逾越某些界限,而这些界限,无论是关乎隐私还是个人自主权的剥夺,都与我们的价值观相悖,值得我们审慎对待。因此,在开发此类技术时,我们必须时刻清醒,如何将个体价值、个体尊严以及对个体的尊重置于核心地位。这是个体层面。
然后,同心圆中稍大一些的中间层是社区。人们聚集在一起形成社区。AI是一种能够在赋能社区方面发挥巨大作用的技术。例如,在当今的生成式AI时代,创作者们创作了海量内容。现在,生成式AI也能创作内容了。那么,生成式AI与创作者之间是何种关系?我们该如何赋能创作者?我坚信,我们的目标是增强人的能力,是利用技术赋能于人,而非剥夺创造力,更非攫取本应属于艺术家和创作者的成果。这些都是我们需要以“以人为本”的方式去努力应对的价值观与议题。
最后同样重要的是社会层面。AI是一项文明级别的技术。我们现在都已认识到,AI对我们社会的影响无疑是变革性的。这关乎就业,关乎政府运作方式如何被AI影响,甚至触及地缘政治。我们如何应对这一切?如何与立法者合作?如何与每一位公民沟通?如何确保这项技术不会撕裂我们的社会?如何确保我们利用技术提高生产力的同时,也能实现共同繁荣?这些都是与“以人为本”的AI相关的更宏大的社会问题。因此,所有这些“以人为本”的同心圆层面,对于当今的AI时代都至关重要。
02
AI的应用具有普适性
主持人提问:像老年护理或气候变化这样的应用领域,您认为哪些最能凸显“以人为本”的AI方法的重要性?
李飞飞:坦率地说,AI的应用是如此具有普适性,我真心认为它几乎触及所有领域。当然,在医学领域的例证尤为突出。正如您所言,由于我个人的经历,我尤其关注医疗服务的提供方式以及如何帮助弱势群体。在这方面,我们谈论的是环境智能传感器、未来的机器人,或者仅仅是更优良的诊断工具。这些都是极佳的领域。您也提到了可持续性和气候问题。AI在帮助我们绘制生物多样性地图、理解海洋、模拟天气与气候,乃至助力我们发现新能源形态等方面,都拥有巨大的机遇。两年前,核聚变领域的突破性进展,很大程度上就得益于美国国家实验室机器学习方法的改进。
但除此之外,还有例如教育领域。我非常兴奋地看到,尽管我们人类的教育体系,尤其是在西方发展起来并如今主导全球的这套体系,在过去一两百年间,特别是自20世纪初以来,其基本结构几乎未曾改变,但信息的编码、传播和分发方式已经发生了翻天覆地的变化。我们现在拥有了计算机、互联网和AI。所以我认为,生成式AI的出现,确实给教育系统敲响了警钟。这不仅仅关乎K-12的基础教育,如今,我们触手可及的工具已经能支持终身持续学习。这是AI应用中另一个非常重要的“以人为本”的范例。
我还认为,AI在一些不那么引人注目或鲜为人称道的领域也有应用实例。例如农业。农业实际上对全球福祉至关重要。如何提高农业效率,如何帮助人类减轻繁重的体力劳动?这些都是AI可以助力的深刻变革。
最后同样重要的是,我还想特别提及政府自身。全球范围内,每个社会都离不开政府的运作。而政府若能更高效地服务于民,对每个人都更为有利。在利用技术提升公共服务方面,AI提供了巨大的机遇。因此,可以说在每一个行业中,我们都能找到“以人为本”的AI应用范例。
03
空间智能智能是整体智能与AGI的重要组成部分
主持人提问:您长期思考和专注研究空间感知领域,能否为我们简要介绍一下什么是空间感知AI,以及它为何如此重要?
李飞飞:我对我们所说的空间智能感到非常兴奋。我将其视为整体智能,或者说AI乃至AGI的一个至关重要的组成部分。因为理解三维空间并在其中进行交互、创造、革新以及完成各种任务,是动物智能,特别是人类智能的根本,并且它也将成为计算机、机器人、虚拟智能体等等的基础。这便是空间智能的宏观图景。
空间智能的根本在于其三维特性,因为空间本身就是三维的。对三维空间进行建模,从而能够创建数学意义上的三维世界,这开启了前所未有的可能性。例如,任何创作者都明白,要真正进行创作,无论是在设计家具、进行室内布局,还是制作电影、营销材料,抑或是纯粹为了娱乐,或是我们当前所见的电子商务模式,他们都需要在创作过程中拥有高度的可控性和一致性。所有这些,都要求创作者具备极强的掌控能力。而空间智能AI正可以助力这项技术的普及,并降低创作过程中的门槛。
另一个例子是,全球市场中大部分业务都涉及到与不同空间的互动。当然,如果您有孩子,自然会想到游戏的例子,事实也的确如此。游戏具有极高的互动性,且大多发生在三维空间中。但空间智能的应用远不止游戏。您从事教育工作,无论是职业教育还是基础教育,许多知识的理解和体验,比如教孩子认识太阳系,如果能以三维形式呈现,无疑会容易得多。当然,现在的孩子们可以在课堂上制作实体的太阳系模型,但这仅仅是一个例子,用以说明如果我们拥有数字化的虚拟能力,能够创建可与之互动的三维虚拟世界,那么从游戏到互动体验,再到各类职业培训,无论是体育训练、外科医生技能学习,还是烹饪,乃至你能想到的任何领域,都将迎来新的机遇。所以,这是另一个重要的应用领域。
最后,我仅举三个例子中的最后一个,我们对机器人的未来满怀期待。它们不仅仅是人形机器人,任何能够在复杂环境中导航并执行任务以辅助人类的机器,都可以被称为某种类型的机器人,包括汽车本身。机器人要在世界中导航并辅助完成各种任务,无论是更换灯泡、在仓库中搬运货物,还是在自然灾害中救援,所有这些都依赖于空间导航能力和对周遭环境的理解,而这正是空间智能的核心。因此,所有这些例子都表明,正如Hugo你所说,这已经超越了语言的范畴,它需要一种不同的语言——一种自然的语言,一种空间的语言,那就是空间智能和三维表征。
04
未来会出现越来越精密的基础模型
主持人提问:您是否预见到未来会出现能够集大语言模型、视觉模型于一体,并且具备空间感知能力,甚至可能整合机器人技术的基础模型或其他形式的模型?目前我们似乎还没有真正围绕空间感知AI展开大规模的公开讨论,在您看来,空间感知系统有哪些实际应用潜力可能是被低估了的?是什么驱动了您创立World Labs并致力于大规模世界建模的愿景?
李飞飞:的确如此。我认为未来会出现越来越精密的基础模型。我的公司World Labs就在为空间智能和三维世界生成研发基础模型。如果您指的是一个单一的、整合一切的巨型模型,这无疑是一个有趣的设想。我相信会有人进行这样的尝试。但这将是资源高度密集的,尤其是在数据和算力方面。这几乎类似于爱因斯坦试图统一所有自然力的宏愿,带有一些那样的意味。所以,这是一个伟大的智慧构想。但在我们实现那种单一的、巨型的、“单一大脑”式AI (我们人类确实拥有这样的构造) 之前,我们会看到越来越多针对不同多模态、各有侧重的不同基础模型涌现。
关于被低估的潜力,我认为其中一个最被低估的方面是,三维本身就是一种用于计算、用于编程的语言。我们看到生成了许多精美的像素图像。但问题在于,如果仅仅在平面屏幕上生成像素,它们实际上是缺乏信息的。我们很难进行测量,平面屏幕上两个像素之间的距离与三维世界中两个像素之间的距离是根本不同的。当这些像素被呈现在平面屏幕上时,你能用它们进行的计算就非常有限了。你如何添加阴影?如何改变摄像机角度?如何处理遮挡问题?如何重新打光?如何进行测量?如何在场景中置入物体?又如何移除物体?所有这些操作都会变得异常困难。因此,我认为一旦我们拥有了真正三维意义上的空间智能,这种情况将得到改变,我对此感到非常兴奋。
我认为驱动我的主要有两个原因。其一,我认为应用场景非常广泛。我们刚才已经简单提及了一些。从创意设计到体验互动,再到机器人技术、教育、医疗健康、制造业、农业等等。如果审视全球市场在媒体娱乐、游戏以及AR/VR/XR和机器人技术等新兴技术领域的覆盖情况,你会发现用例层出不穷。这本身就非常令人振奋。与此同时,从智识和技术层面来看,这个世界也迫切需要世界模型,而具备空间特性、基于三维的空间智能世界模型,正是生成式AI时代所缺失的一个基础环节,我视此为一个巨大的机遇。
05
驱动AI前沿:开源力量与赋能科学发现
主持人提问:目前AI领域的哪些进展真正让您感到兴奋,是您认为正在推动整个领域向前发展的?
李飞飞:我认为开源让我感到兴奋。当前全球范围内正兴起一场开源运动,这极大地促进了整个领域的繁荣发展。这是令我兴奋的一个全球趋势。另一个令我兴奋的全球趋势是,我们有机会利用AI极大地加速科学发现的进程。这一点尤其应该也必定会在我们的大学校园中发生。因为有些人可能会持有悲观的论调,认为在芯片、数据等AI资源高度集中的时代,高等教育和大学将无所作为。我对此持强烈的反对意见,因为我认为高等教育依然是真正由好奇心驱动的“蓝天”研究持续发生的场所。更实际地看,大量的跨学科工作正在涌现,无论是临床医学研究、生物学、心理学、天体物理学还是土木工程,大学校园里的任何一个院系,你都会发现AI可以成为他们的有力工具。利用AI助力这些学科进行科学发现和创新,是一个让我倍感振奋的巨大机遇。
06
健康AI生态
主持人提问:在充斥着即时反应和大量信息的当今世界,您个人是如何在AI的真实进展与过度宣传之间做出区分的?以及,在思考社区和社会如何利用AI时,一个健康的AI生态系统还需要哪些关键要素,开源和学术界在其中扮演何种角色?
李飞飞:Duncan,这个问题非常好。首先,我的人生一直有“北极星”作为指引,这确实帮助了我。因为如果你理解了你的“北极星”,你就可以用它来衡量当前的各种声音是否属于过度宣传,或者有时你会发现一些真正了不起的进展,那就是一颗“北极星”的实现。所以,这始终是我的参照体系。其次,我仍然认为尊重知识和专业素养至关重要。仅仅因为某人在Twitter上有时能够引发全球规模的关注,并不一定意味着他们就拥有深厚的专业知识。因此,我依然看重发声者的背景和专业性。Duncan,这实际上是一个非常深刻的问题。在ChatGPT时代,在AI时代,信息无处不在。我们如何教导我们的孩子,甚至是如何引导公众去辨别信息,防范虚假信息?我们还没有谈到这方面的担忧。在这个AI时代,我最大的担忧之一就是优质公共教育的缺失。我认为,包括政府自身在内的各方,出于各自的目的,在谈论AI时,有时带有或明或暗的议程。这在一定程度上造成了信息真空——或许“真空”这个词有些言重了。有些人正在努力填补,至少Stanford HAI一直在尝试,但在提供优质、可信、客观的AI公共教育方面,现状确实近乎真空。这让我非常担忧,因为你、我以及Hugo可能不容易受到影响,我们相对不那么脆弱,因为我们受过良好教育,有幸生活在能够便捷获取信息的地区。但并非每个人都如此。AI加剧了这个问题,我们必须对此高度警惕。
关于健康AI生态,我认为正如“生态系统”一词本身所揭示的,它必须是多方利益相关者共同参与的。一个健康的生态系统不仅仅意味着双赢,更可能实现多方共赢。以美国为例,尤其在第二次世界大战后,政府通过向公共和私营部门的生态系统注入资源,或多或少地扮演了积极角色,以此推动发展,并创建了一个健康的技术创新生态系统。因此,我们今天所看到的所有AI进展——从微芯片、大数据到神经网络算法等一些基础性突破——都可以追溯到数十年的研究积累。所以,拥有一个健康的生态系统至关重要。它不仅关乎资源投入,更关乎人才。一个健康的生态系统,是人才能够接受教育、获得工作并最终回馈于此的地方。这一点至关重要。实际上,我对此有所担忧,并且也曾公开表达过这种忧虑。因为AI的发展速度实在太快,目前大量的资源不仅掌握在私营企业手中,而且高度集中在极少数几家公司。这对于整个创新与教育生态系统,乃至社会的长期健康发展,都是不利的。
关于本期对话
访谈发布时间:2025年5月13日
原视频地址:https://youtu.be/be0gLzeBX5w?si=i7IR8_i-Ss0rGMPa
来源:人工智能学家