摘要:由北京图书大厦、北京大学出版社主办,北大博雅讲坛、文汇讲堂工作室承办的北大博雅讲坛624期“Sora带来的超人类时空感知暨《对话时代》新书研讨讲座(北京专场)”现场 ,提问听众与嘉宾们同框留念
由北京图书大厦、北京大学出版社主办,北大博雅讲坛、文汇讲堂工作室承办的北大博雅讲坛624期“Sora带来的超人类时空感知暨《对话时代》新书研讨讲座(北京专场)”现场 ,提问听众与嘉宾们同框留念
【导读】12月初,由“AI教母”之称的斯坦福大学李飞飞在今年4月组建的World Labs发布首个空间智能项目成果,让人咋舌:仅凭一张图,就能生成一个3D游戏世界的AI系统。与生成式大模型预测的是像素相比,更进一步的是,AI系统可以预测3D场景。这就涉及李飞飞的首个创业公司World Labs的方向——空间智能,即视觉化为洞察,看见成为理解,理解导致行动。该公司3个月就突破10亿美元估值。李飞飞近日也宣称,理解世界运作的方式是AI的下一步,我们需要从大语言模型转向大世界模型。
空间智能,通俗来讲,就是AI感受到并创造出的三维空间。
在文汇讲堂第八本新书《对话时代——铸造新质生产力的强国之路》7月写就的长篇序言里,作者朱嘉明教授就在“不断加速推进的人工智能前沿”一节里详尽介绍了这个领域的新发展。他认为,基于AI大模型的空间智能,可引导人类进入“一种全新的存在”,而具身智能可能是这里的“原住民”。
今年10月底,在京沪两地展开了本书研讨讲座,在北京图书大厦举办的讲座主题就是空间智能。由清博智能副总裁、创新院院长李祖希主持,横琴粤澳深度合作区数链数字金融研究院学术与技术委员会主席朱嘉明、北京智源人工智能研究院战略研究中心负责人倪贤豪、中山大学天文与空间科学研究院教授兼著名科普作家李淼,展开了一场非常前沿也很专业又有丰富视角的对话讲座。
现分三篇整理后予以分享。两篇为内容,第三篇为互动。此为提问。
12月下旬,李飞飞与谢赛宁再次发布空间智能研究新成果 图源:量子位
AGI何时到来?垂类领域比通用领域更早到达
金融从业者包善附:AGI什么时间可能会到来?AI加上人形机器人未来会不会替代我们,包括脑力和体力工作?
倪贤豪:AGI什么时候会到来,或者说普遍意义上大于等于人类水平的人工智能什么时候会到来?朱嘉明老师推荐的书籍里说的2045年,是很多学者都认可的一个时间点。更加激进点,假设这一波大模型就是通过深度神经网络对算力对数据去实现能力的涌现,AGI要能达到在相当多的行业里等于或大于它的平均从业人员的能力水平,如果顺利的话,或许三年之内就可实现。
其实很多领域平均的工作水平并不需要特别高,您所在的财务金融这个方向,已经有相当多的垂类大模型,经过微调之后,能够做报表分析,也能够快速地帮我们跳转到想要看的信息,然后去帮我们做分析,这个能力在未来的三年时间里会越来越强。
这里面涉及“人工智能的涌现”,涌现指把很多的组件放到一起,然后经过高频次非线性的交互之后,会出现一些我们没有发现的能力。在未来的半年或者一年时间里,我们有没有机会看到GPT-5的出现,并且它的能力相比之前的GPT-4还能保持一个较好的提升?这是未来可观察的一个点。
因此,四五年肯定是一个保守的数字。能够达到多数行业的平均工作水平的人工智能,最近三五年可能就会出现,但是还需要观察未来半年到一年全球范围内最领先大模型能力的水平,这需要我们去评估。
人形机器人做家务和陪伴,可延长人口红利
2024年3月,英伟达创办人黄仁勋在GTC大会中表示,AI领域最终的发展,就是建立人形机器人 图源:NVIDIA YouTube
人形机器人本身是这一波人工智能大模型能力的一个外溢,不能单纯地把它看作是以前机器人技术的外延。不是说用它把人类替代掉,而是说通过它将人类的能力向外延伸。比如用具身大模型去替换掉工厂里那些机械臂对应的小模型,让它的能力变得更强。
如果人形机器人的软硬件都成熟的话,我们希望它能走入家庭。如在20万以内买一个人形机器人,它能够在家里提供陪伴,也能够把家务都做完,就至少能释放出一个劳动力去做其他更有效率和社会价值的工作,这样能够变相地延长整个人口红利。
至于替代人类,就像刚才李淼老师提的,人类的天花板还非常的高,短期应该是做不到的。
尝试找出AI感知思维空间的技能,人类去体验
工程师刘鼎新:人工智能都是基于模仿人类或者其他生物而创造出来的。所以,对通过人工智能感知到四维空间我有疑问。是不是应该是通过人工智能的发展探索出感知四维空间的技能,而非通过人工智能直接感知到四维空间呢?
李淼:我同意你后面的观点,就是找感知四维空间的技术。因为我们对大脑实际上了解得太少了,比如说,我们知道前后左右上下,但是具体是通过神经网络的什么功能实现的我们不知道,同时由于有两只眼睛,通过视察原理能看到第三维,但一只眼睛是看不到的,能做到这一点,我感觉是训练出来的。因此,我们得了解大脑是哪部分如何感觉到三度空间,并且如何训练,这样的话我们就可以想办法用机器帮助我们训练一下,让我们感受甚至是创造第四维。
我觉得这个前景是了不起的,不光是说这能帮助我们提高解决各种问题的能力。Sora生成影片,甚至能创造四维影片,这种效果丰富极了,人在观看四维影片的时候完全处于嗨的状态,因为四维要比三维丰富多了,所以虽然我这说得有点科幻,但是我觉得这不是全无道理的科幻。
北京图书大厦内四位嘉宾密集讨论最新思考
倪贤豪:我同意李淼老师的说法。我觉得其实我们很难去感知到四维空间,因为感知是需要有对应的数据和传感器的,我们更多是通过传感器去收集,包括人感知到的数据、机器交付的数据、其他物种的数据,这样的数据集合到一起,然后我们构建这样的模型,让模型去预测或者生成四维空间。
刚才的圆桌讨论里提到,从二维去生成或者预测一个明确存在的四维是不可能的。一个图片,用手遮住人脸的一半,我们可以用AI去尝试恢复这张人脸整个的样子,但其实这是一个预测或者生成,并不是说这个人真的就长这个样子,它只是根据这个人现有的上半脸的信息去预测或者说生成下半脸。我觉得这是可以类比的一个从低维的数据往高维数据,或者说高维的事物去做一个模型这一侧的演进可能的方向。
人脑100亿个神经元交汇产生意识,AI还望尘莫及
初二学生张鑫业:如果机器人有了情感的话,那么是否代表它们会有自己的思想?如果它们有了自己的思想,对我们的生活有什么帮助或者造成哪些阻碍?
倪贤豪:从目前的情况来看,虽然一些大模型通过了图灵测试,但其实应该是没有自主意识的。如果说机器人或人工智能产生了自主意识,客观来说,我们可能先会去提前考虑它可能存在的风险。
因为AI将来会渗透到各个行业,可能它自己就开始做各种病毒攻击等,这是比较麻烦的。如果产生了自主意识,那它已经是超级人工智能了。因此,对于这种情况,我们先要考虑到安全风险的问题,其次要考虑到的是让它能够去遵从我们的意志去实现一些工作。
另外刚提到涌现,人脑可能是100万亿个神经突出或者神经元组成的,这100万亿个神经元组成到一起,就有了意识。我们很难说现有的人工智能的神经元100万亿个放一起,会不会有自主意识,更何况现在人工智能神经元离这个数字还差得很远。
所以,您的问题其实跟刚才财务和金融口的小伙伴提的问题本质上是相同的,就是AGI什么时候会到来。客观来说,我觉得还是用四五年会更合适一些。
图灵测试 图源:X@PhysInHistory
李淼:回答非常简单,但是可能让你有所失望。图灵测试大家都知道,就是把那个机器关在小屋里面,你问所有的问题,如果他的回答跟一个人完全一样,就认为它有了意识。这个好像又没有直接回答你的问题,比如说如果它有感情,感情也是可以进行图灵测试。比如说你今天是不是不太高兴,不太高兴这件事情,它们可能写出程序。但是,什么叫不太高兴?什么叫高兴?什么叫流泪?我们通常把感情等同于灵魂的表现,这是文学化的说法,但是我稍微把这个话题扯开去,感情某种意义上来讲是不是非逻辑的东西?如果是非逻辑的东西,是不是机器很难达到?我这也是一种提问。
为何AI不能做跨界能手?垂类微调后能达到
程序员吕永亮:我今天非常有收获。刚才老师说“车到山前必有路”是很妙的广告语,机器无法实现是因为文学和计算机是两个独立的科学,大部分开发大模型的高手在文学领域的造诣是有限的,要有所提高,需要两方面达到同步的高度,这样评判对否?
李祖希:你说得对。我解释一下背后的原理。AI现在是一个相对通用的“万金油”,它每一个学科都学过,但都没有达到大师级的水平。
刚刚李淼老师举的例子是一个写广告语的任务,未来我们可打造一个专门学广告语的AI/大模型,它的水平可能就从60分达到70分。这个案例不光是说广告语,它还非常有创意地结合了中国的诗词,结合了一个典故,又结合了汽车的一个特点,实现了一个跨界,那它在广告语的能力方面可能就达到了80分。
《对话时代》作者之一清华大学沈阳教授在朋友圈晒出来的AI绘画新风格,AI学习能力远远超过普通人 李念辑制
未来它能强在哪里?它不是所谓的“大路货”,它能结合产品的特性,又能够让人很有记忆点,就变成了一个从普通的广告创意者变成了大师级别,这就需要我们把更多的大师的语料教给他,让它来向大师学习。现在它是向普通从业者学习的,未来它跟着大师训练一段时间可能就提高到90分了。所以,未来人类可能还会剩一两个,比如像李淼老师这样的是超越AI的,我们可以想办法让AI逐渐专业化。
倪贤豪:祖希老师说得很对。我们现在做的是基础大模型,它是面向所有的场景,所以它可能会出现“事事通,事事松”这样的状态。如果具体到您提到的广告行业,我们把这个广告行业沉淀下来的几十年的数据全灌进去,我们在学术上或者说工业界的说法叫“微调”,就灌进去微调一次,然后做出来专家大模型或者行业大模型,它生成广告的水平,可能会被评价达到60、70或80分。
所以,就像我们刚才说的,整体普遍意义上的通用人工智能可能得四五年出现,但是在具体行业可能会来得很快,或者说近几年就会产生比行业内多数从业人员平均水平更好的行业大模型,这样也会带来那个行业的结构性的失业,或者说需要他们至少都会用大模型。举个例子说,在美工设计这个领域,以前我们需要用PS这些软件就行了,但现在必须要用Midjourney这样的一些行业的图像生成模型,如果你不会用基本上就不会被录用。
主持人李念分享上海专场新一代AI算力主题的观点
不要被工具淘汰,如果那样是人类的错误
主持人李念:昨天和今天两场活动的话题都是我们《对话时代》这本书的最新数字技术的延续提升版。虽然今天现场李淼老师给我们泼了不少冷水,但是事实上说我们要从长时段上来看,以前我们一个变化一个突破都要经历几十年,现在则可能是一年甚至半个月都有变化,朱嘉明老师说两个礼拜一个更新。所以,我们作为一个个体,一定要积极关注,刚才倪总也回答得非常好,我们怎么去关注它,至少要把它作为一个工具,否则你会被工具落下,这个不是工具的错误,而是你自己选择的错误。所以,我们希望这两场讲座能给大家一个既有畅想未来,又有脚踏实地的选择,大家一定要加强跟着AI走的意识。当然,顶端的技术人员另当别论,我们普通人是要这样的。 整理:朱梅全 李念
来源:文汇报