科创深圳为什么要认真琢磨特斯拉那个会跳舞的机器人

360影视 欧美动漫 2025-05-17 19:31 2

摘要:事实上,特斯拉机器人沿用的技术路线与我们在亦庄机器人半程马拉松看到的太不一样。那些机器人大概率都是靠编程操控的,具体来讲,技术人员输入一个编程驱动机器人关节、轴承转扭,使得机器人最终得以跑了起来。

这一周,关于机器人的新闻报道依然很多,最硬核的恐怕就这两条:优必选与华为、越疆科技与腾讯的战略合作。

两件事都是同一天官宣的,外间的解读多从产业协同和加速商业落地,这自然没错。

谈点不一样看法。笔者以为,华为与优必选、腾讯与越疆科技的战略合作更大的可能是代表了深圳机器人产业技术路线的某些探索方向。

之所以有这种想法,因为同样在这几天,特斯拉发布的OPTIMUS机器人“鬼魅舞步”视频全网刷屏了。

没有遥控,也完全没有预先排练的痕迹,动作灵活顺畅不说,那股透露出来的随意随性,更是潇洒得狠。

惊艳世人,必须承认OPTIMUS的进化超出我们的预期。

事实上,特斯拉机器人沿用的技术路线与我们在亦庄机器人半程马拉松看到的太不一样。那些机器人大概率都是靠编程操控的,具体来讲,技术人员输入一个编程驱动机器人关节、轴承转扭,使得机器人最终得以跑了起来。

训练机器人,还有另一种方式,姑且叫“数据捕捉”。

还是以机器人跑步作例子,先造100个机器人原型,然后让人摆开架势自个儿先跑起来,然后一对一通过传感器和摄像头去训练机器人,人跑步的数据和运动轨迹通过传感器沉淀下来,机器人随之也就学会跑步了。

这个也面临着诸多挑战,高昂的训练成本且不说,数据量累积和数据多样化也是个梗阻点。

平地跑大概不会有问题,但设想那些个极端的场景呢?比如,在芦苇荡、在花海中跑步,那得有多大的训练投入啊。

特斯拉走的是另外一条技术路线,也就是所谓的“强化学习+模拟器”路线。

简单讲,就是先设计出一个颗粒度极细的生成式高仿真模拟器,然后让机器人在这个模拟器里进行多场景、多线路训练,刚开始时机器人也会跌倒也会闹出很多笑话来,不过跟人在现实世界学习一样,通过多轮次的强化学习,它终究是可以学会人类的跑步技能的。

只要模拟器足够好,机器人的学习效率一定是非常高的。7X24根本不是问题,10倍速也没啥难度,慢慢地,它就真的学会了人的各种动作,就像视频里那个跳舞的OPTIMUS,动作自主随机、而且极其流畅。

关于这一点,马斯克在访问沙特时解释了——Zero shot transfer,啥意思?对标机器学习的专业术语,大致可以翻译成“不经过实际样本就可以直接迁移到实际环境的机器学习”,结果我们已经看到了——

具身智能,是无可置疑的方向,但实现路径却是一个值得认真思考多方探索的问题。

概括讲,机器人实现具身智能的技术路线有三种:编程、智能捕捉和基于模拟器的强化学习,当然一些工业机器人是可以走编程路线的,但生活类的机器人,看好的应该还是模拟器的强化学习路线。

笔者认为,无论是华为还是腾讯,都是具备构建这种具身智能模拟器能力的,所以有理由相信,这样的强强联合,会为深圳具身智能发展带来更科学的技术路线和更具前景的产业未来。

类似的情况还出现在无人驾驶上,目前也有两种完全不同的技术路线:一种是激光雷达+摄像头+高清地图;一种是所谓纯视觉的FSD路线,FDS路线其实就是一种端对端的智能神经网络,数以百万计的汽车端持续地上传数据到CORTEX算力中心,不断进化的算法再传回汽车端最终实现真正意义上的无人驾驶。

激光雷达与纯视觉的产业路线究竟哪一种更好?现在依然还有不少争论,但纯视觉的拥趸明显越来越多。

低成本、可规模化扩张,具有全球复制的能力,这就是纯视觉FSD路线的优势与力量所在。

近日也还有两个热点,主要是涉及人工智能底层架构问题。

一个是2018年图灵奖得主杨立昆提出来的。杨立昆的主要观点是基于 LLM(Large Language Model)大语言模型的人工智能架构很难达到人类的智力水平。

他这样推理的,一个大语言模型的数据量大约有20万亿个TOKEN,一个TOKEN按3个字节算,数据量大约是60万亿比特,乍看起来很吓人,一个人要读30万年才有可能读完这些的文本数据。

不过,杨立昆看来,这样的文本数据“依然非常局限”,随后他举了一个小孩例子来说明这种“局限”。

他说,一个4岁小孩他的清醒时间约有16000个小时,按一个人有200万根视觉神经纤维连接到大脑计,正常情况下,每秒通过视觉传输到大脑的数据量会是1个字节,4年时间小孩光通过视觉就处理了110万亿个比特的数据,这还不算嗅觉、触觉什么的。

60万亿,110万亿,这样的数据差距从很多方面来说都是意义非凡的。

杨立昆认为:我们永远不可能仅通过文本数据训练就期望AI达到人类的智力水平,所以必须找到更多从高带宽感官输入(如视频)中学习的方法,不幸的是,目前AI底层架构很难做到这一点。

他甚至断言:因为我们无法通过生成模型(generative models)达到这个目标——我们必须抛弃生成式AI。

当天讲座上,杨立昆就此还提出了一种所谓的联合嵌入预测架构(Joint Embedding Predictive Architectures, JEPA),事实上,它与LLM的区别,在于它更强调了从观察和互动中学习,强调通过视觉与互动认识世界,强调通过多模态输入来训练大模型。

这又是一个科技革命的岔路口,或许决定人工智能的下一步和应用开发。

另一个热点呢?则是DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepSeek-V3:人工智能架构硬件的扩展挑战与思考)》的回顾性论文。

关于大模型的底层架构,梁文锋也曾提出了一些创新性的思路,无疑这篇论文的发表也是非常值得我们去认真关注的。

深圳正加快建设具有全球重要影响力的产业科技创新中心,认真思考这些技术路线的区别真的非常非常重要。因为技术路线决定产业方向,而产业方向则关系着产业要素集聚、产业资源调配、产业链打造等诸多问题,关系到新质生产力的培育和发展。

来源:读特客户端

相关推荐