摘要:相较于目前大语言模型在数字世界里带来的技术变革,具身智能描绘了通往未来世界的另一条路径:大量具有智慧的机器人出现在真实的物理空间中,通过参与到人类生产、生活的各个环节,改变人类的生活方式。
从语言智能,到空间智能。
整理 | 曹思颀
编辑 | 靖宇
2024 年,具身智能无疑是 AI 领域里最火热的新赛道之一。
相较于目前大语言模型在数字世界里带来的技术变革,具身智能描绘了通往未来世界的另一条路径:大量具有智慧的机器人出现在真实的物理空间中,通过参与到人类生产、生活的各个环节,改变人类的生活方式。但和大语言模型可以利用海量互联网文本、图像资源进行快速学习不同,在具身智能领域里,机器人缺少低成本、高效率、多样性、可泛化的学习数据。如果只基于 Transformer 架构的大语言模型(如 ChatGPT),人类无法实现具身智能。海量物理正确的训练数据如何快速获取,是迈向具身智能前的世界级难题。13 年前,黄晓煌回国创业。回国前,他在美国伊利诺伊大学学习 GPU 计算,也在英伟达做过云计算。他一开始的创业方式,是希望用 GPU、云计算来做物理仿真,但在当时,极少有人可以理解 GPU 通用计算的价值。于是,黄晓煌用 GPU 进行光学仿真,并应用对家装场景里,把过往需要几十分钟的渲染提速到了 10 余秒,自此开始了群核科技的创业之路。多年后,凭借着在家装渲染、工业 4.0 生产对接中积累的海量数据,在具身智能的技术巨浪袭来时,群核科技终于脱下「家装公司」的外壳,浮出水面。他们希望可以在数字世界和物理世界中间,搭起一道桥梁,通过海量可交互的、物理正确的三维数据,推动具身智能的发展。以下是群核科技联合创始人兼董事长黄晓煌在 IF 2025 主舞台的演讲全文。在演讲中,黄晓煌分享了群核科技的创业故事,以及他们对具身智能时代的思考。由极客公园整理。01
ChatGPT 解决不了的「叠被子困境」大家好,我是极客公园的老朋友,来自群核科技的黄晓煌。今天我介绍的主题是:如何让 AI 从数字世界走向物理世界。大模型到来之后,所有人都想知道它能为我们做什么。我们的下一代已经成为了「AI 原生娃」。我女儿刚学会认字,但她已经能很自然地对着各种镜子和屏幕喊「小度小度」或者「小爱同学」了。但他们目前还只能跟虚拟人物进行沟通,我们更希望孩子们跟物理世界有更多互动,有真实的陪伴。可惜即便 AI 现在已经可以吟诗作画,但就算叠被子这么简单的家务,机器人都实现不了。当我们谈到具身智能或者机器人的时候,「叠被子困境」是一个非常典型的场景。目前的 ChatGPT 大语言模型,可以很容易地让机器人理解人类的指令,「给我叠一个被子」,它也可以通过视觉判断哪床被子是叠好的、哪床被子没叠好,但它很难执行。或者当它学会叠一床被子后,换个形状可能就又不会了。机器人的大脑在数字世界里,但身体却在物理世界中。解决这类问题,最关键的是在物理世界和数字世界里面建立一个桥梁。而 ChatGPT 一类的大语言模型是无法实现的,我们需要一个全新的大模型。让机器人正确理解物理世界,关键是要有海量可交互的三维数据。很多大语言模型都是根据互联网上的语料信息、图片或视频训练出来的,但这些内容只是一堆静态的记忆,训练出来的东西跟物理世界是相违背的。这里有一个简单的例子,左边是由 Stable Diffusion 大模型生成的卧室场景,右边是由我们的矩阵 CAD 引擎生成的。乍一看都挺漂亮的,但左边这张存在多处物理不正确的地方:比如有的床头柜悬空、有的柜门无法打开。我们需要在大模型脑海里呈现右边这种内容,来指导真实的生产制造。02
群核的创业之路:家装公司收到硅谷来信说说我的个人经历吧。我一开始在美国伊利诺伊大学香槟分校学习 GPU 高性能计算;后来去英伟达做了 CUDA;回国后成立群核科技,做了 3D 云设计平台;现在又在关注具身智能。经常有朋友问我,为什么你选择这样的创业路线?我想说,在中国创业没办法太阳春白雪,要脚踏实地跟着时代走。刚开始创业的时候,我想用 GPU、云计算来做物理仿真。但是回国一看,发现当时投资圈热门的都是移动互联网、O2O,我所想做的项目根本融不到钱。跟投资人讲 GPU 通用计算,在那个年代几乎就是对牛弹琴,更不要提物理仿真了。后来,我们想到了用 GPU 来做光学仿真,把原来需要几十分钟、一个小时的效果图渲染提速到了 10 秒钟,为家装设计师提速。这个「家装 OTO」的概念,很快成为了资本最推崇的项目,帮我们融到了很多资金,让酷家乐成功上线并成为了设计师首选的设计工具。下一步,我们抓住了工业 4.0 改革里,传统工厂打造柔性生产线的需求,用我们的数据帮助工厂进行升级。我们用物理仿真、数字孪生,把每一件商品拆解成一个个零件,通过流水线机器人以及传送带实现柔性生产。但这依然不够,因为这些工厂里所有的机械臂都是没有智慧的。你告诉它往左就往左、往右就往右,机械臂是没有智能的。一旦进行微小的改动,所有一切都要重来。所以,现在的无人工厂实际上还不是真正的无人工厂。那段时间我非常苦恼,但我们已经见识到了物理正确数据的价值。直到有一天,我看到马斯克提出用人形机器人在工厂生产汽车,就觉得工业 4.0 的下一步是把流水线机器人变成人形机器人。我觉得这是未来,而群核科技就是这些所有机器人训练的「道场」。03
具身智能的世界级难题:数据我们发现,现在不管是空间智能还是具身智能,有四个最关键的问题需要解决:算法、算力、数据、机器人硬件。算法层面,目前是百花争鸣的状态,有非常多算法。算力层面,国外以英伟达为代表,国内也有地平线等公司在快速地解决这个问题。我觉得算力已经过了技术的奇点,可以支撑人造的智慧了。机器人硬件层面,中国更是独霸全球。而目前世界级难题的是:如何给机器人提供用来训练的可交互的数据?这就是我们要去解决的。来源:极客公园
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!