摘要:12月21日,阿里巴巴通义实验室产品负责人金璐瑶做客由华尔街见闻和中欧国际工商学院联合主办的「Alpha峰会」,就AI应用演进和背后的助推力做出分析、展望。
12月21日,阿里巴巴通义实验室产品负责人金璐瑶做客由华尔街见闻和中欧国际工商学院联合主办的「Alpha峰会」,就AI应用演进和背后的助推力做出分析、展望。
以下为演讲精彩观点:
上一代AI模型中,大语言模型是一个基座,生成图像、增强搜索都是插件,应用在大模型之上,这会局限AI模型表达的形态。所以目前,大家更倾向于把大模型作为能力的本身,这样子AI模型包装出来的应用形式会多种多样。最早的一些的模型是单线程,而现在已经发展成一个多线程的过程,AI模型开始能够举一反三,解答从来没有见过的问题。这改变了人类和AI交互的过程,比如做会议纪要,以前可能需要用到非常多不同模态的能力,现在有机会把它拼合在一起,AI可以做总结、整理邮件、列出日程计划,成为真正的工作生活助手。大模型时代的到来,利好充满创意的人,AI模型能够以一种高效、新颖的方式帮助人类。以下为讨论实录:
大家好,我叫金路瑶,我来自于通义产品部,我是产品的负责人。那我今天跟大家分享的这个东西,也是我们差不多整个通义在跑下来以后有一些成功的经验,当然去掉了一些失败的经验。
我刚才听陈老师在上一趴,也跟大家从投资人的角度其实讲的特别好,就是可以跟我这趴完全完美的衔接在一起,那我们可以来看一下,到底今天什么东西是ready的,以及它背后的东西是什么。
那我回到的是说它背后的东西是什么?那我相信各位校友们应该比我清楚的是,那经济背后有一个不可见的手,对吧?那我们今天AI应用落地或者是工具落地,它其实同时也存在一个看不见的手,就是我们的模型能力。那刚才陈老师也说了,那今天在这个市场上什么是ready的?什么是不ready的?但其实很多的时候我们会发现寻找边界的这个过程是非常有意思。
那举个例子来讲,那我们会发现上一代的模型,那它无论是从文本的一些的问答,包括说现在市面上有很多人在创业做小红书账号,抖音的账号,它去做很多的一些内容,原创的一些的生成。OK,做了很多的,它往往是以一个chatbot的一个形态,就是你跟它去做对话,那它是一个什么样子的过程?那慢慢的我们叫它协作画布,那这个可能是一种更加新的一种创作的形式,包括说方式,那我一个个跟大家来做解析。就是说我们今天看到的这个chatbot,主要是它就是一个chat框,那包括说后面出现的,包括说publicity。那这个框的背后是时候每一个人在学习的过程中,他会不停的去积累他自己的所谓的知识,那知识会帮你们每次在问答问题的时候它被使用到。
今天模型也是同样的概念,那我们在8月份的时候和奥运会,也就是我们的奥组委一起合作做了一个奥运GPT,那很多的时候就是把奥运历史的知识给到了今天。什么意思呢?比方说原来的赛事讲解员,他需要在线去搜索很多的一些东西,挑出一个最优的结果,变成我的一个参考物,那今天对于大模型来说,它用它的知识来讲是我把所有的结果读一遍。我觉得哪几件事情它互补在一起是一个逻辑框架,那我把它整理好像极了你的秘术,那给到你一个具体的结果之后,你可以直接来用。那搜索是什么?搜索其实本质上大家用百度的时候也是从里面去找到一个最接近你想要的一个答案。那今天它就是一个知识被阅读学习总结的一个过程,所以更多的还是基于知识的一个交换,然后我们会看到这个的交互的形式,它极致会拓展到什么程度?就是类似于我们通义做的是李白数字人。
那刚才我看陈老师也讲了correct AI,那correct AI包括说Mini Max很多的时候他在做的那一部分的形态,它也是来自于说用一个数字人的形式来表达最优解的一个问答或者是一个知识,那它在第一代的模型,也就是我们称之为上一代模型的时候,基本上是用这样子的一个方式来解答今天audience的一个问题,或者是你想要去探索的一个答案。
那在这个市面上慢慢就会涌现很多相关的一些产品,比如说为什么correct AI最早的时候就产生了,因为它很能够和人互动的过程中产生很多的一些的对话,帮你去做一些的辅助。那我们的李白数字人他去做什么?李白数字人做的是我们今天来到了贵州的一些的乡村的一些的小学,让这些的小学生跟李白数字人问答的情况下,来背李白的唐诗,或者是来解答他的生平济世。那这样子的一些的事情,我们前段时间也在跟南京博物院一起来合作,包括说在一些的文物复活上、历史故事的一些解答上,它会有一些创新。
所以我们今天在谈模型它是否ready的时候,那要谈一个问题,什么是他今天一定ready的事情?那这也是我们整个大模型在创业期间我们会去思考的第一个问题,那我们会把它称之为这一代带的一个什么样?这个市场有痛点,那模型的边界在哪里?那我们放出这样子的交互的产品,希望大家用到它的同时能够助力你的事业和行业。
那随着模型的演进模型,那这个我现在呈现出来的就是上一代的模型,我们在应用落地的时候的一个架构,你会看到是说今天large language model就是一个它的基座,那所有的一些基座都藏在这个框的背后。然后我们所谓的一些模型的一些能力,包括说图片处理,包括说一些图像的生成、增强的搜索,它其实都是作为一个插件的形式,然后应用在大模型之上。
那这个会产生一个不好的后果,就是它局限了今天表达的形态,它也局限了今天每一个人在使用它的时候的第一步的门槛。 所以我们在这一代创业的时候,我们在应用的创业的时候,我们会更倾向于把今天的大模型作为一个什么,作为一个原子能力的本身,比如说图片生成是一个能力。比如说文本问答是一个能力,比如说我们今天打开摄像头进行一个增强视觉能力的多模态,它是也是一个能力,那这样慢慢的它包装出来的形式会有多种多样的。
举个例子来讲,那今天比如说canvas,也许大家知道,也许大家不知道,这是我非常喜爱的产品,它从原本局限的大家在跟大模型的一个对话里面就会变成一个什么样子的东西呢。 比如说我曾经听说过中欧的有一位同学,他可能看到16篇论文,然后老师给他布置了一纸试卷,说你在今天可能是周天,你周三的时候就交给我。那可能这样的作业本身是一个比较难去做的作业,但我今天这个只是一个打趣,那这位同学他就把那十几个论文直接上传到ChatGPT里,然后原本的形式是它只能给你来一问一答,你说这12篇文章都说了一些什么?你给我概括出来。那今天如果是用这样子的交互形式,你在左边说你帮我去生成一篇什么样子新式的一个论文,我大概告诉你我的策划的方向是什么。那然后呢?他会接着来回答你,他相关这12篇论文中的一些相关内容有哪一些?然后自动的回答在右边,然后你会说,唉,这一段我觉得远远不够,我希望他再润色一下,你去框选一下你希望去润色的一些内容,他在进行这12篇的阅读的过程中,进行一些更加细节的一些的处理,包括说段落的一些摘要,帮你抽屉出来,然后再补充进这一段的论文中,那它是不是一个更快速的创作的过程呢?
我相信通过这个的一个过程,大家应该可以想到,其实今天文字工作者的创业或者是媒体的创业,它也许会发生一个变革。 那比方说我们最近通义也一直在研究,我们如何通过这个过程帮助浙江日报的各位的记者更高效的去写他们的一些的社论,包括说一些的新闻,包括说帮助我们每一个普通的用户去获取你关注的领域。今天有可能一共发生了25件事,那我有没有可能每天早上睡醒的时候花个10分钟就读完?那这一些的过程是怎么去创意出来的呢?它更多的是通过这样子的应用的架构去产生的,那这些的模型的能力相对来说是非常ready的。那下一步就是说那刚才郎陈老师也说到了O3今天早上发布了,那之前更加ready说O1的这个模型产生了,那他对我们的生活会发生什么样的改变?那我还是拿ChatGPT来举例子,那OpenAI的两代模型,其实它的特征反映是说这个业内我们去做模型的这个路径的时候,会去选择的一些不同的部分。
比方说for它更多的是集中在多模态的一些的能力,但是在它那一代的时候其实并不具备很多思维链的一些涌现。说人话是什么意思?他没有办法举一反三,那在OE的这个时代他就能够去做到这件事情,同时这一部分逻辑推演的一些能力,甚至慢慢的可以去做数学题,去处理奥赛的信息,去做很多的coding。那我们会发现它的一个区分是在哪里?最早的是一些的模型,也就是说类似于像for这个模型在做它的时候,它其实是一个单线程,也就是我们会发现我们去做一件事情的时候,它的模态和一个记忆,包括说它的一个反思往往是绑定在同一个任务流里的。那我们人类不怎么考虑问题,我们其实同时会去思考既有逻辑的部分,又有情感的部分,又会带入我和你的对话里面可能曾经发生过的一些的片段。
那这个其实它是一个多线程的过程,不是一个单线程的过程,所以你会发现o这一代的模型,也就是无论是O1、O2还是O3,它其实代表的是说我在这一部分的推理的逻辑里面会更倾向于不同的一些的介质,或者是不同的一些的模态带给我的一些的反馈,我进行一个综合的处理,变成一个举一反三的一个现象,所以这个像极了什么,就是像极了我们经常在公司里面评价一个员工,我今天教你了一件事情,我是要教多少遍才能教会你?如果我教一遍就会了,我会说你这个人很聪明,那这也是为什么说我们会发现到了多线程这一步的时候,我们极具个性,人会去发现是说模型变得越来越聪明了。因为他有这一部分的能力去解决更多的一些的问题,更复杂的一些的任务,甚至于像今天早上O3我们看到最兴奋的一个点是什么?他甚至于可以去解答那些他从来没有见过的问题。 那这个是一个什么?像极了今天一个科学家你要去解一个别人没有解答出来的东西,他有办法去解,也许他解的不好,但是他有办法,那就代表的是说今天的模型有一个接近于人类智力的水平,当然这个到应用确确实实还有很长一段时间。
但是我们会发现基于OE这样子的一个慢思考,包括说推理的过程,它恰恰改变了很多的交互的存在。那比方说举个例子讲,我们曾经可能要去做一个会议纪要,那你今天需要用到非常多不同的一些的模态的能力,那我们今天就有机会把它拼合在一起,端到端级联在同一个模型里面去做一件什么样的事情呢?首先开会的时候他来听,帮你基于每个人不同的声音做一个summarize。然后在过程中也许你会打断他说,我记得我上一次开这个会的时候有那么一个action,他是否在这一次有一个?嗯,recap,也许他没有,那他可以提醒你,那开完会了之后很多人是需要去整理邮件的,包括去整理一些待办事项,变成一些agenda,甚至需要mail出去。
那它可以一条体系链的去结束这件事情,当这个播放按钮或者是录音的按钮按暂停的时候,它自然会生成一个大纲,也就是我们在图上看到的这一张思维导图。他会把会议中涉及到的方方面面可能提过的知识点都汇集成一些不同的tag,或者是不同的一些的内容给你进行展示。 你如果觉得我今天需要以 Email 的形式发出去,你可以要求他把这张的大纲扩充成一段的 Email 写的要有领导的语气,或者是写的要有一个agenda 的方式。这个都是在过程中模型和你的交互,那所以它可以很好的帮助大家来辅助工作或者是辅助记录,然后甚至在结束的时候它有一个很关键的能力,那也是最近我们一直在看的一个非常有契机也去做好的第一代用户产品是什么?就是它可以来帮助每一个人去做课堂笔记。你可以边听边去拍照,然后插入到刚才那段summarize里面,当他帮你整理成agenda的时候,你觉得我好像有一段的记知识点没有看的那么清晰,我再想复述一遍。那你就去点选它,它会来到那个章节,帮你再扩充知识点,甚至于可以帮你再去联网搜索,然后把课堂上没有听到过的线上的知识再给你进行一次的涌入。 那这个时候极大的方便了我们去学习知识的这个门槛。
然后我们可以看到另外一张图,我们去做了一个级联的这个模式是什么?这个大家看到好像是一张抖音的图,上面蒙了一个层,其实它是一个翻译。那我们在今年8月份的时候,在云栖第一次展示了这款产品,也就是大家无论是在跨国会议里,还是在今天很多的一些场合,比如说要去看一些的美剧,但它可能是生肉,它压根就没有字幕。那原本你要做同声翻译或者是字幕组,你可能要等两天同声翻译,它有可能是要听完一整句话它才会给你翻译下一句话。那今天我们的翻译的模型,通过刚才多线程的这种模型的连接的方式,它就可以做到秒毫秒级输出,也就是当这个英文的第一个单词吐出来的时候,这个的翻译就出现了。那我们在云期的时候,义乌的老板娘们听到了这个非常的疯狂,就基本上每一个老板娘都不表示这个模型他一定要买,方便他去做出海的这套业务。所以刚才陈老师也说了,我觉得就是说在 p 和 b 这件事情上,可以说今年是非常 ready 的。它有非常多 ToB 的工作,可以做 ToB 的这一些的工作其实只要大家有想象力,那基本上这个工具的创新它是相对来说非常 ready 的。那这也告诉我们的一件什么样子的事情,原本最早的时候模型创业,我们叫做PMF,但可能今天 PMF 是远远不够的。那你会发现 technical 这个事情,它每一个月都会有一些新的东西。然后包括说你每一个月随着你去用不同的一些的模型,你会发现你在改变他的一部分的观点和观念。但是我始终是一句话,我们今天很多的时候模型是来辅助人类去学习、去工作、去生活的。他没有办法取代你,因为我们今天还处于一个 level two,对不对?那基本上它跟我们也许是硕士毕业的水平具备了一定专业性。那它的知识面是非常相当的,只是今天的模型它具备了非常多个专业的硕士而已,那这个的时候它可以很好地去辅助到你的工作,帮助你去做一些方方面面助理,可以去帮你干的活,生活助理、工作助理和一些学习助理。
所以这个里面就我们去分析是说今天一件事情,或者是今天的模型到了哪一步可以去做,那更多的情况下我们希望去平衡的是技术市场和这一部分的用户痛点,它有没有合在一起?如果合在一起那就是一个非常好的产品,歼击也一定能够站得住。然后另外一点我也想提出这个观点,也是我们团队内一直在讲的一件事情。就是今天模型的创业或者是大模型的到来,他利好一种类型的人,他非常要有创意,非常的希望去改变曾经已经非常让你俗套的一些的生活,你希望拥有更高效或者是更新颖的一种方式来帮助到你。
比如说我们最近会看到的是说很多的一些线上的一些工具,大家来到通义上去进行一个 agenda 创作的时候,会有一些很有意。 面试官的一些相关的能力开在这里,然后对方可能通过视频进行一个面试的时候,翻译官自动帮你去答出了一个运营专家最应该回答的一个问题,那能不能说这是一个翻译工作呢?那虽然说这个 h 里面有一些 tricky 所在,但是,嗯,可以说这是一个一个人创业的开始,也是一个创业的一个落地。 所以利好所有创意的人士,利好所有文科生,利好所有今天在创意的表达上有自己想法的一些的人,我举个例子讲,我们万象的平台最近一直在做 x 模型的升级,那它跟我们今天大文本模型完全是两套的技术栈,你刚才陈老师也讲到了一个对于客观物理世界的一个理解,它和今天文本的模型是两套,一个代表了你的眼睛,一个代表了你的一个也许是嘴或者是耳朵,那今天不同的这一部分的模型的能力其实能帮助到大家的地方是不太一样的。 比方说大家也看过 Meta 去和那个 ChatGPT 一起合作的那款眼镜,其实很多的时候它也代表了说技术的革新,它不一定只发生在屏幕界内,它也会改变每一个硬件。那今天的眼镜是这个样子,那今天的项链又何其不是这个样子的?所以大可以更加的多一些的创新去改变你们今天觉得方方面面做不到的一些的事情。可能今天模型都能够做,那我今天的分享就到这里,感谢大家。
来源:华尔街见闻一点号