京东要造“人”

摘要:浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,)。

浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,)。

京东要造“人”

文|史中

(零)在意义空间里“调味”的师傅

“何老师,录像准备开始了,记得不要做意义太明确的手势哦!”

何晓冬点点头,深吸一口气,面向两台摄像机开始发表演说。

气氛整这么紧张,不是搞就职典礼,而是在搞“数字分身”。

话说,那是 2022 年冬天,京东云的言犀团队整了个大活儿,准备正式推出“数字人主播”,就是让 AI 复刻真人的表情、动作、语言来直播带货。甚至他们还琢磨着把东哥也搞成数字人,“亲自”下场直播练摊儿。

作为数字人项目起心动念的推动者,这“螃蟹”何晓冬说啥也得自己先吃一只试试毒。

克隆效果咋样呢?

这是真人何晓冬↓↓↓

这是数字人何晓冬↓↓↓

这里提个小问题:为啥当时团队同学要提醒何晓冬别做意义太明确的手势嘞?

因为被录制的人,所有的动作都会成为呈堂证供,啊不,学习资料,交给 AI 去参悟。

最后做出的数字人,在直播时会根据说话的内容判断,从这些动作里生成 Ta 认为最合适的给贴上去。

而“贴”的有没有那味儿,取决于 AI 对手势的“意义”理解有多深刻。

在这之前,团队已经做了几个月实验,复刻了不少主播。

他们发现,如果主播做太多一二三之类有明确意义的手势,AI 容易学岔劈,带货时不合时宜地比划“一二三”。。。

那不如就先瞒着数字人,不让它知道有这样的手势。

这是个小事儿,但我却想让你站在这道“楚门世界的裂缝”前,看看隐约透出的真相:

AI 本质上就是一台“意义调味机”——如果像大厨那样,从各种意义调料里一抓就准,就能把语言、动作运用得越得当,它就越!像!人!

摊开历史的卷轴,这场烹饪游戏已旷日持久,数字人不是第一关,也不是最后一关。

(一)一抔 AI 往事

话说,这次我和何晓冬博士见面,是因为他刚得到了一个“既奇怪又不奇怪”的大奖。

这就是顶级学术会议 CIKM(信息检索和数据挖掘国际会议)颁发的“最佳时间检验奖”(Test of Time Award)。

说“奇怪”,是因为这个奖居然颁给他 11 年前的一篇上古论文。

说“不奇怪”,是因为 2024 年很多重量级大奖都不约而同颁给了这种上古贡献,仿佛是学术界的一波大型“追认潮”。

比如今年刚拿诺奖的辛顿老爷子。他的”深度神经网络”结构可是在 80 年代提出来的,整整等待了四十多年,直到 ChatGPT 和大模型百分百验证了这条道路的凶狠之后,才终于获得追认。(亏了老爷子身体硬朗。。。)

可贵的是,何晓冬博士这些年拼杀的方向,一直围绕着这个战场,也就是刚才提到的:

通过神经网络技术,不断让“意义调味机”变得更精准。

我愿称之为“AI 的正确道路”。

回到这篇论文出生的 2013 年,那时候没有抖音,没有拼多多,没有滴滴,也没有中关村扫码一条街,买一台指纹开锁的 iPhone5s 够吹半年。

更离谱的是,如今教父一般的互联网巨头们,当时竟都没能很好地解决一个基础问题:

如何给用户的“查询”匹配精准的“内容”?

打个比方。

比如我搜“狗”,最简单的方法当然是“字词匹配”:在全网的文章里,找到含有“狗”这个词最多的文章,给我展示出来。

但这有大问题,很多写狗的文章不一定有这么多“狗”字。

有可能写的是“犬”,有可能写的是“金毛”“雪纳瑞”。搜索引擎筛选的时候,不会觉得这些文章是我需要的,统统 Pass。

你说它傻不傻?

关键词匹配只能找到字面对应关系。

那咋办?还是那句话,要搞懂“意义”。

当时有技术可以理解字词的“深层意义”吗?有啊,要说辛顿老爷子的论文早就写了:可以把每个词都转化为一组多维空间的向量。

多维呀,向量呀,太难懂,就举个通俗的例子吧:

假设咱们手里有 10000 种“意义配料”,每种配料都用一种颜色表示↓↓↓

“狗”和“金毛”是两个词,各自用到的意义配料必然不同。但是,它俩肯定有几味主要的配料很相似。

也就是说,在语义的空里间,“狗”和“金毛”的位置会比较近!

“金毛”和“狗”字面上看起来完全无关,但通过对比它们的“意义配料”,咱就知道金毛和狗存在深层语义空间存在一定的关系。

要是能写一个 AI 程序,精确提取出各种词汇的“意义配料”,到时候不就能用于精准匹配“查询”和“内容”了吗?

就像酱↓↓↓

何晓冬眼前渐渐浮现出“两座塔”:

一篇内容也许有几百个词,把这几百个词剁碎,一股脑扔给 AI,算出这篇文章的“配料”;

一个“搜索”可能有十几个词,也同样剁碎,一股脑扔给 AI,算出它的“配料”。

这里的配料最初有上万种,但是我们要层层归纳,最后归为 128 种。这个层层归纳的过程,就像是“盖塔”。

每上一层,配料就少一些,计算量也小一圈↓↓↓

此时,“查询”成为一座意义之塔,“内容”也成为一座意义之塔。

最后神操作来了:只比较两座塔的塔尖,这 128 味配料的相似度。

这不就省事儿多了?

而且,你日常就可以把所有“内容”的塔算好,用户来了一个“查询”,马上就能和这些塔尖比对,找出最匹配的那些“内容”!

这就是 DSSM 模型(基于点击数据学习用于网络搜索的深度结构化语义模型)。

11 年时间弹指一挥间,君且看,如今 DSSM 双塔结构已经遍地开花,大小互联网公司,只要有“搜索、推荐、广告”业务的,就一定有这“两座塔”。

一篇论文,奠定了互联网“搜推广”的基本业务模式,让后来的电商、短视频等等帝国,都建立在这块砖石之上,“最佳时间检验奖”妥妥实至名归。

但真正凶狠的是, 有关“意义调味机”的故事并没有结束,而是刚刚上路。

时间检验奖的“奖状”。

(二)万物皆“配料”

造出《终结者》里 T-800 那样的通用人工智能,是 AI 科学家的人均野望,但很长时间他们眼前的 AI 都是花式智障,烂泥扶不上墙,只能掩面长叹。

如何在一片没有任何标志的荒原里找到通往终点的“那条路”,才是个真问题。

2018 年,何晓冬离开微软雷蒙德研究院,回国加入京东。

在我看来,这背后恰恰隐藏着一类 AI 技术人寻找这条路径的品味。

简单来说就是:要想 AI 进步,得不断让它在*真岗位*上*干真活*。

这里有“两个真”:

真岗位,是说 AI 必须在生产活动中参与人类的一项或多项工作。(否则就是玩具嘛。)

干真活,是说 AI 做这件工作(相同效果下)的成本必须低于人类。(否则就是作秀嘛。)

按照这个品味来说,京东还真是个好去处。

因为京东能掰成两半:一半是个互联网电商公司;另一半是运行着庞大供应链、仓储、物流、客服的实体产业。

两边加起来有几十万员工,上千种岗位,而且很多岗位是比较基础的体力和脑力劳动,特别适合 AI 来做嘛。

也就是在这个节骨眼上,京东提出了“技术、技术、技术”的口号,准备拉开阵势挖掘自己的 AI 金矿。

智能客服,就是他们挖的第一批“矿坑”。

很多人觉得“智能客服”和我们上一章讲的“搜推广引擎”是两个风马牛不相及的东西,其实不是的。

你还记得我们之前反复说:“AI 的本质是意义调味机”吗?

“搜推广引擎”的本质是把“查询需求”和“内容供给”在味道上匹配,把适合的内容展现给适合的人↓↓↓

智能客服本质上是把“问题”和“解答”在味道上匹配,把适合的回答展现给适合的问题↓↓↓

它们干的活都是:用神经网络去找到一个东东在意义空间里的位置。

只不过这些解答不是简单的词汇,而是词汇串起来的句子。所以,“智能客服”显然要比“搜推广引擎”有更多的意义配料。

这也意味着要用更大的模型,耗费更高的算力去计算。

客服解决一个问题,显然要比提供一次搜索结果的价值高得多。只成本合得上,就是“干真活”嘛,没毛病!

但把模型做大,只是水面之上的冰山,如果站在人类客服的“真岗位”上看,你会发现很水面之下还有更多棘手的问题:

首先,客服接收的询问可以是文字,但有可能是图片,也有可能是语音;

其次,客服要去寻找的答案,也可能来自文字、图片、视频、音频杂糅的页面。

比如我发给京东客服一张衣柜的照片,问还有没有其他类似款式的。

人类客服可以轻易感知这张图里的内容和“衣柜”这两个字在意义空间里是对应的。

要想上岗干活儿,AI 也必须做到。

这就要求 AI 不仅要(像搜索引擎那样)把文字放在意义空间里,还要把语音、图像等等都对应在*同一个*意义空间里,用同一套意义配料来表示。

用专业”黑话”来说就是:多模态语义对齐

问题来了:

人类 AI 技术一直是摸着石头过河,走一步看一步,导致虽然都是使用深度神经网络技术训练,但用于视觉识别的 AI 和用于语言理解的 AI 训练方法走了两条完全不同的道路。

假如中国人看到英国饭,虽然觉得不好吃,但起码能理解他们在吃啥,因为配料能对得上。

但如果一个中国人看到了三体人吃的饭,配料完全对不上,就很难理解了。

配料对不上,意义就对不上。

那咋办?

这里就不得不抬出何晓冬博士十年前的另一项工作:DMSM(语言 - 视觉深度多模态语义模型)。

道理也简单,就是要从头训练视觉和语言 AI,并且在训练成型的各个阶段不停地比对,确保它们的意义配料在每个阶段都能准确对应。

配料一样,就能想办法对齐。

这就可以了吗?

在这个岗位上真试一试,你会发现并不可以。

因为一张图片里会出现很多物体,而人类客服可以轻而易举地注意到图片里的“主体”,但是 AI 就会混不吝地把所有物体都平等地识别出来。

这样不仅浪费巨大的计算力,还会让识别变得非常不准确。

那咋办?

这里就不得不抬出何晓冬博士五年前的另一项工作:“Bottom-up and top-down attention”(自下而上和自上而下的注意力机制)。

这个技术其实就是受到人类注意力机制的启发而想出来的,简单说就是:通过图像和文字中的一些蛛丝马迹,提取出 AI 应该重点注意的主体。

有了这两个技术打底,再加上亿点点工程优化,就做出了一个多模态模型,不仅能用一套“意义配料”来表示图像和文字,还能做到成本低廉。

虽然远谈不上完美,但它可以干活了!

就像这张图所示:AI 看到“狗”,就能马上联想到狗的各种关联词,还有狗的样子,还有狗的发音。

你看,只要人类认为*可以有意义*的东西,甭管是文字、图像、语音,都可以塞进同一个意义空间,用同一套意义配料来表示。

理解并且做到这一点,我们才迈过了通往通用人工智能的一个重要的里程碑!

在 2020 年时,这个多模态模型已经被干到了 10 亿参数量。

这样的模型不仅可以做客服,也能做销售。比如打电话给老用户,通知他们新的促销活动。

言犀的师傅们发现一个有趣的心理规律,大多数用户会在接到电话的第一句决定是不是要挂断。如果没挂断,大多就会和你多聊几句。

于是他们制定了一个指标——“首句挂断率”。为了让 AI 客服撑过第一句,他们拼命优化说话的口气,甚至还用上了方言。

人们听到乡音,就会倍感亲切,也会更愿意倾听和交谈。

你听一段感受下↓↓↓

也正是从这个时候开始,京东启动了 AI 能力大规模对外服务。

不仅给京东当客服,也可以出去打工,甚至被雇去给一些城市的政务热线 12345 去做话务员。在这么重要的岗位上服务,可见能力还是颇受信任。

不过,如果此时把视野拉开,一个怪兽正在撕开帷幕,准备搅动舞台。

(三)做出世界上不存在的蛋糕

2020 年夏天,就在全世界公司都在一脑门子官司,用小皮鞭抽打 AI 去各行各业打工时,大洋彼岸的 OpenAI 祭出了一个“怪兽”——拥有 1750 亿个参数的 GPT-3 模型。

算起来,它比京东的模型 10 亿参数大了一百多倍。训练它消耗了 500 万美元。

但。。。它只会聊天,创造不出啥经济价值,完全不符合咱们一直鼓吹的真岗位上干真活的“赛博牛马”气质。

这当然不能说明 GPT 没有价值,这恰恰说明,没有一种 AI 路径是绝对正确的。

历史有时进入迷局,真就得靠疯子撞开一扇门。

这一波 OpenAI 的折腾,言犀的师傅们从专业角度悟出了一个“门道”。

那就是,GPT-3 模型把全世界互联网上的文字拿来学习,用极多的意义配料来表示这些词汇和语句,超过一定程度,它突然就“涌现”出生成内容的能力。

咱们不妨想象一个蛋糕店:

过去,你是个打工学徒,有顾客形容他想要一个什么口味的蛋糕,你只能尽量理解,然后从货架上选一款最贴合他描述的;

现在,经过十年苦练你成了糕点仙人,顾客说他想要什么口味,无论多么离奇,你都可以微微一笑,现场拿配料给他做一个。

你完全可以把以上两种情况都看作是“匹配”。

只不过一个是在成品层面匹配,一个是在配料层面匹配。

用无数已有的意义配料做出世界上原本“不存在的蛋糕”,其实就是我们现在熟悉的大模型 AIGC(人工智能生成内容)。

虽说在 2020 年,大模型的成本还在天上,没啥实用价值;但随着 2022 年底 ChatGPT 3.5 捅破天,大模型的能力迅速抬升,成本迅速下降,它就落入了真岗位上干真活的轨道。

这也是为什么从 2023 年开始,全世界的大公司全都疯狂地杀入大模型。

虽然各家大模型都可以 AIGC,但如果还拿蛋糕店打比方,你就会理解一个问题:能不能做出好吃的蛋糕,是由“原料种类的丰富度”“你对原料掌控的精细度”决定的。

对于京东来说,他们的“原料”里有大量的采销信息、产品介绍、营销方案、用户对话,把这些东西揉碎在意义空间里,能出来个啥?

这要不出来个赛博牛马级的带货主播,都对不起这些独家数据呀!

京东直播间的数字人主播

话说,很多人都看过数字人的带货直播,但却不太容易条分缕析理解背后的技术。

告诉你一个小妙招,从“意义配料”的角度下手,分分钟就能“庖丁解人”:

想想看,一个人,只要精神正常,在同一个时刻,他的所有语言、嘴型、表情、动作都只为同一个意义服务。

人是如此,数字人更是如此。

现在我们假设:一个数字人在直播,他正好要揭晓某款空调的价格。

这一刻,把时间定格,钻进这个数字人主播的身体里——她全身上下所有的表达必须都凝聚在“揭晓价格”这个意义上:

她的脑海里正流淌着一句话:“这款空调双 11 的惊爆是 2699 元。”

她发出的声音,就是这句话的中文发音。

她使用的语气,必须是和这句话意义相匹配的(此处也许要神秘的、激动的);

她的嘴型,也必须和这句话的发音相匹配;

她的表情、手势也都必须和这句话揭晓价格的情绪相匹配;

那么问题就简化了:一切树枝攀附的树干——这句话——是怎么来的呢?

当然是大模型的语言能力+京东电商数据的特训+商品的基础信息,然后“AIGC”出来的!

这段销售的语言被生成出来,声音、语气、嘴型、表情、手势才能被顺次生成,他们一起在时间线上向前移动,在每个时间切片上,所有的树枝和树干都要表达同一个意义。

客观上来说,以目前的人类技术,还不能用一个模型来生成这么多模态的内容:

必须用一个大模型生成语言,一个专用模型生成声音,另一个模型生成嘴型,还有一个模型生成身体动作,等等。

但没关系,还记得我们手上已经有一个传家法宝了么?

没错,多模态语义对齐!

只要让语言、声音、语气、嘴型、表情、手势等等各种东西都在同一个语义空间里对齐,用同一套意义配料来表示,那么数字人在说一句话的时候,自然就知道应该对应哪个声音和动作了!

就像下图所示↓↓↓

说到这里,我们不妨驻足回看。

你会发现这些年言犀老师傅虽然做的东西五花八门,但却一直在这场旷日持久的“意义战争”里拼杀,从未离开。

每一次蹦高才能 get 的新技能,后来都成为更炸裂技术的“垫脚石”。

2013 年,他们在空间里为文字寻找意义配料,诞生了千人千面的搜推广引擎;

2018 年,他们开始把文字、图像、声音用同一种意义配料表示,诞生了 AI 情感客服;

2023 年,他们开始用大模型精细的意义配料来调配不存在的东西,并且把文字、语音、动作等等更多的模态在用同一套意义配料对齐,于是才诞生了——“言犀数字人”。

从一开始,完全看不出和人有什么关系的专用 AI 系统,到后来意义配料逐渐增多,模态逐渐堆垒,一个人的雏形就这样浮现,这才是技术进步最浪漫的剧本。

不过,我们不能沉溺于浪漫,回到开头的故事,言犀同事们为何晓冬制作数字人时,让他不要做意义明确的手势,就足以证明现实的残酷:

模型对于语义配料的分析能力还有很大的欠缺。

话说在 2023 年,业界数字人的前沿能力大概是:

1、文字、语音和唇形能够用“配料”自然生成,即便如此还是有某一刻不那么像真人;

2、人物的表情和手部动作无法随意生成,只能在最初的录像里“挑选”;

3、人物的大幅度动作,比如喝水、 站起来走动、摸脸等等还无法做到。

所以整个 2024 年,京东师傅们都在意义海里深潜,就研究一件事——怎么让数字人更!像!人!

(四)“不出戏”的数字人

说到这,就不得不给你介绍一位我新认识的凶悍产品人,飞姐。

飞姐确实给我随时准备解决一场战斗然后“飞”到下一个战场的感觉。而且我发现这不是她一个人的气质,而是数字人产品团队的气质。

技术一定有不完善的地方,主播被用户发现是个数字人也在所难免。

但我们能做的是想尽办法让用户晚一点儿“出戏”。只要停留在数字人直播间更长时间,自然货卖得也会更好。

她开门见山。

“出戏”,其实是人类意识一个很玄妙的特性。某个说不清道不明的细节,就会让你意识到“哪里不对”,一旦意识到“哪里不对”以后,你就没办法再回到“对”的状态了。

为了让数字人不出戏,团队工作的主要内容之一就是“看购物直播”。(怎么样,羡慕么?)

当然,他们是专业的,只看,不买,除非忍不住。。。

出乎我意料的是,他们大多时间居然看的是人类直播,而非数字人直播。

他们是在“逆向思考”——人类主播做了一件事,让观众 DNA 动了,他们马上就拿小本本记下来。

然后开始逼问自己,为啥主播干了这个我就觉得好呢?我家数字人能不能也干这个?

飞姐

比如:小动作。

一个主播是端坐在那里一直说更好,还是时不时撩头发、看手机、瞅瞅旁边更好?

看直播的时候他们发现,主播的各种小动作看上去没啥意义,其实处处都在传递“意义”。

比如刚说错了什么,为了缓解尴尬来个“战略喝水”;比如刚才一通输出信息量太大,撩撩头发缓一缓。

这些都是数字人

小动作,其实可以归为直播中的“瑕疵”。可这种瑕疵恰恰给我们更真实的环绕感。

这种奇特的结论,如果不是真的天天泡在人类直播间,真的很难得出。

比如有同学在来回切换人类主播和数字人主播观察时,发现了一个更隐秘的区别,那就是:人类主播会时不时盯一下手机,看评论区留言。

数字人主播当然也能“看”留言,但显然是通过程序接口输入的嘛!它才不用浪费时间,把屏幕上的光点儿传到视网膜,然后用大脑解析出文字的含义。

但是!只要它没有身体前倾默默看留言的那个的过程,观众就觉得你不像个人!

你说说。。。人类是有多难伺候?

诶,意识到问题所在,它就已经解决了一半儿。

在录制数字人的时候,团队会提前跟被录制者说明,你必须得用放松的口音说话,如果带点自己的口音、腔调那最好。而且还要专门录制一些喝水、摸头发、聆听状态之类的小动作,就是为了让屏幕前的观众感觉到自然交互,不出戏!

下面这个直播片段,你猜哪个是数字人↓↓↓

答案是:两个都是数字人!效果还算 OK 吧?

但是,到这里问题都解决了吗?

还差得远呢。

话说,直播就像一部电影,它吸引你的程度也可以用电影评分表示:

“不出戏”,只是三颗星及格线,你起码不会把注意力抽离到屏幕以外的地方;

接下来是“尿点少”,也就是四颗星,比如你即使憋尿也忍不住要看接下来会发生什么;

如果“全程无尿点”,尿裤子也忍不住要看,那就接近五星好评了。

怎么能让一场带货直播像精彩的电影一样“全程无尿点”,这才是终极命题。

而且这恐怕不是战略喝水、撩撩头发、看看手机就能解决的,甚至也不是对每个词句精细打磨能解决的。

飞姐团队苦思冥想,发现了一个问题:

有些主播长得不算美,说话口音还是塑料普通话,遣词造句也不用那么标准的语法,甚至语速也不均匀,但作为观众,就是觉得他/她是个人才,说话好听。。。

虽然没完全想明白是个啥道理,但飞姐决定试试。

她找到技术团队的算法总监老吴,提出了非分的要求:咱家数字人能不能多点儿“主播感”?

老吴皱眉:“主播感是啥?”

飞姐给他看视频。

老吴推推眼镜:“可以试试。”

团队直接把数字人的训练库从字正腔圆的模特天团升级到了金牌主播大军。

一试吓一跳:AI 把这些人的特质都学习下来之后,数字人主播身上果然多了一些微妙的“人味儿”。

飞姐决定顺着这个思路继续得寸进尺。

“无尿点主播”不仅每句话说得让人爱听,更是在直播的“整体结构”上有精巧的设计

飞姐头顶突然亮了灯泡:“直播中的整体话术设计,也是可以被大模型学习的吗?”

她又忐忑地找到技术团队。

老吴推推眼镜:“可以再试试。”

他们试着找来了各行各业的头部主播的大段直播视频,让大模型分析整场直播前后逻辑设计的奥秘。

果然又吓一跳:数字人主播居然真的学会了一些直播套路,卖 3C 的时候说一套技术宅喜欢的嗑儿,卖衣服时又会说集美们爱听的词儿。

飞姐说,经过这个调整,数字人从一个“播报员”变得更像“销售员”了!

它上道了,它变成了她/他。

站在技术空间,你会发现这个转变的迷人本质:理解正在向意义空间更深处漫溯。

在大模型出现后,学界有很多大佬泼冷水:人能理解自己在说什么,可大模型的原理却是预测下一个字的概率——这意味着 AI 永远无法和人匹敌。

但正如辛顿所说:人工智能看起来只是一个预测下一个字的机器,但如果你能预测得极其精确,只有一种情况,那就是“理解”了。

其实,人也是被训练出来的。

飞姐提醒我。

人生下来没有任何能力,说话是训练出来的,开车也是训练出来的。三百六十行的专家,也都是经过训练才习得这个行业的工作模式。

不仅如此,就连公认与“灵魂”最接近的情绪,快乐、悲伤、忧虑、愤怒,舔舌头代表迟疑、双臂交叉反应防御,也都是在和环境互动的过程中被训练,随之被刻在基因编码中的反射模式。

话说,越是在人工智能领域深耕,人们越会同意一个大逆不道的“暴论”:机器没有灵魂,但人也没有灵魂——就没有灵魂。

秉持这个判断的好处很多,但最重要的一个是:你可以心安理得地把数字人和人放在同一个高度去平视。

(五)当机器平视人

中国电商巨头有很多,但它们在对待数字人主播的态度上有细微而深刻的区别。

比如一家以短视频为主业的头部电商,只接受人类主播,发现你用数字人直播甚至会封号;

另一家以 C2C 为主的头部电商,目前只让数字人对私域流量开放,也就是你无法自然刷到数字人主播,只有关注店铺后才能刷到它的数字人直播。

而京东的态度最为激进:它并不区分这个店铺是人类在播还是数字人在播。

也就是说,在这个平台上,数字人主播和人类主播拥有同等的权利。

这个策略让人惊讶,因为看上去它两头得罪:

一方面,这对数字人来说是残忍的。

因为数字人技术像个孩子一样稚嫩,但系统没有给它任何保护,直接无差别面对挑剔的顾客。

另一方面,这对人类来说也是残忍的。

因为在精力上,人类不可能像数字人一样一秒都不休息;在记忆上,人类要想成为专家,需要十几年刻苦练习,但数字人可以瞬间学习,零成本分裂。

血肉牛马怎么卷得过赛博牛马?

那京东这么选的道理何在?

如果你把视野局限在数字人和人的关系上,就很难理解。一旦把头抬起来,看向远处,一切都朗若列眉。

我们举个例子:

发展电动车,就是为了取代燃油车,节省能源吗?当然不是。

电动车普及,自动驾驶才有可能普及;自动驾驶普及,大规模的机器人才可能普及;机器人普及,人类的生产制造、物流传递、家庭服务成本才会巨幅降低;这些成本全部降低,人类才有机会调动巨大的能量推动新一轮基础科学进步,从而加快可控核聚变技术、星际飞船技术,飞向下一个纪元。

同样道理:

发展数字人,只是为了在直播间多卖几件东西吗?当然不是。

数字人普及,人类体力和脑力的物理天花板才能打破;物理限制打破,一个生命就可以在躯体上随时分身,在脑力上同时成为三百六十行的专家;有了这样新的生命形态,才能在人与人之间插入无数新的协作者,让生产力突破天花板。

站在未来回望,你才能感受到,数字人平视人类的那一瞬间有多么可贵。

何晓冬告诉我,他想象中数字人的未来就像《红楼梦》中所描述的“太虚幻境”。

你闭一下眼睛,就像做梦一样穿越到一个虚幻的世界:

你只要意念一动,身边就能闪现出一个形象,和你交流,互动;交流完毕,他又瞬间消失。一切沟通都不受沉重的肉身所限制。

而且这些出现在你身边的人,就是专门为你的需求创生的,别人既不需要,也看不到。

这种体验,是我们依靠肉身永远无法创造出来的。

“人到不了的疆域,机器人可以抵达。”

何晓冬说。

我们离“太虚幻境”还远,但我们在向那里行进。

今年春天,东哥把自己也做成了数字人,这是一个极强的信号——京东在 AI 上 All in,不准备回头了。

市场敏锐地接收到这个信号,天平从微小的震颤到迅速倾斜,很多店铺和直播代运营机构开始用言犀数字人直播,不仅在京东平台上播,也在其他平台上播。

数字人主播的成本相当于人类主播的十分之一,甚至更少。省下来 90%,意味着商家可以大幅降价却依然维持利润。

京东用这种方式再次杀入了电商江湖的腹地。

今年 11.11 前,言犀老师傅们兴奋地告诉我,他们把数字人的语音模型进行了升级,说出的话更接近真人的语调。

而且他们还做了“双主播”技术,两个数字人可以在直播间里实现交流,虽然这种互动还很简单,但第一步已经迈出。

这是 2024 年 11.11 直播间的片段,你可以听一下声音,看一下动作。

实话说,在我这个轻度用户看来,这些进步都是微小的创新,好像并不意味着什么,但是从老师傅闪光的眼神里,我看到了他们眼中的汹涌未来。

历史总在押韵。

当年,何晓冬博士最初搞出 DSSM 时,业界的反应平平,甚至学术机构犹豫再三,让他把论文大幅改短才勉强同意发表。

但何晓冬本人并不纠结,因为他笃信时间会给予自己应有的奖赏,所以能静静等待,默默前行。

言犀的同事们告诉我,何晓冬反复说:技术人要有高目标,如果每天仅仅盯着眼前的问题就会陷入迷茫。

如果把自己的工作仅仅看作是怎么让数字人主播的销量再提高 1%, 难免会觉得疲惫。

如果把自己看作是一个在意义空间里冲杀的战士,赢得人工智能旷日持久的战争后,自己的名字会镌刻在人类文明的史诗中,你就会跨越搜索引擎、跨越 AI 客服,甚至跨越数字人,走向更远的地方。

在短剧《爱、死亡、机器人》中,有一集名为《齐马蓝》(Zima Blue)。

一个旷世的艺术家齐马,以远超常人的激情创造了无数震撼诗人的艺术作品。他深居简出,从不与人对话。

世人只知道,他为了更深地体会这个宇宙的真理,把自己的身体都改造成了机械。

从某一天开始,在他的画作中,出现越来越多的蓝色的方块。这个颜色精准而动人,人们想尽一切办法理解其中深意,但终无所得,只好称之为“齐马蓝”。

在完成最后一个作品前,他向一位记者袒露了真相:他是一个 AI。

在“他”还是“它”的时候,它只是一个清洗泳池的工作机器人。

但正是从这样专业且微小的工作开始,经过无数次进化,他成为了现在的自己。

而在画作中反复出现的蓝色方块,正是在水下看到的游泳池瓷砖。

被人歌颂的伟大顿悟,来自渺小而微的劳作;

渺小的劳作,穿越恒久的时间,成为被歌颂的伟大。

这种恒久的耐心或许并非 AI 专属,而是 AI、人类以及所有智慧生命所共同擎起的一把火炬。

在这个意义上,我们无比平等。

👉辛顿的冬与春

👉

👉

👉

👉

👉

👉

理解自己

造出自己

再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,shizhongmax

哦对了,如果喜欢文章,请别吝惜你的“在看”“分享”。让有趣的灵魂有机会相遇,会是一件很美好的事情。

Thx within Beijing

来源:浅黑科技一点号

相关推荐