张一鸣用十分钟详细讲透“字节跳动”的视频算法!

360影视 2025-01-17 22:26 2

摘要:先解释一下什么叫自我演化,自我演化的系统应该是这么一个系统,就是这个系统开发完成之后,部署完成之后,并不能一下提供很好的服务,哪怕把系统重新copy一份,然后部署起来提供服务,也不能提供同样的服务。

今天重点想讲的是在做今日头条产品的过程中,随着数据越来越丰富,信息服务出现一个新的趋势,就是自我演化的信息服务。

先解释一下什么叫自我演化,自我演化的系统应该是这么一个系统,就是这个系统开发完成之后,部署完成之后,并不能一下提供很好的服务,哪怕把系统重新copy一份,然后部署起来提供服务,也不能提供同样的服务。

这个系统必须经过用户的使用过程中不断的使用,系统不断的去理解用户的输入,用户的每次使用,不仅是使用信息服务,并且是教育系统,让系统越来越有智慧,系统会随着过程自发的成长。

大家可以类比一下之前的信息服务,比如搜索,如果今天有能力搭建一个跟百度、google一样的系统,基本上第二天就能提供同样的服务,一个搜索词进来就能得到相关的网页返回,只有极少部分的搜索结果有经过点击反馈的调全。

门户基本上是每天早上或者前一天主编把对世界的理解,把对中国的理解安排到边际值班室,在门户上编排出来,如果一旦主编走了,服务自然就下降了。

自我演化的服务的特点不是依靠一个人的经验,并且不是依靠一个固定不变的算法,自己归纳有三个特点。

·第一个,大家都比较理解的个性化,用的越多,越每一次输入,在某个时间、某个地点给你一条内容,点看或者不看,看是认真看还是初恋的看,参与评论了还是分享了,每一个行为都为系统更好的理解提供帮助。

·第二个,其实很多人跟我说,像推荐系统会不会陷入到个性化收窄的问题,就是只懂得不分的兴趣,其实在个性化的另一面其实是放化,在推荐系统中更重要。

所谓的泛化在生物学上其实也是有这个概念的,不仅是对刺激极易响应,是对刺激的同质的刺激都极易响应,所以泛化的结果是夜多人使用,夜多人使用系统就更好的动力,不但自己使用在更好的动力,夜多人使用也在更好的动力。

自我演化的系统我觉得还有一个非常重要的,也是让团队觉得非常兴奋的事情,就是会随着时间的推移,越多人用越长时间,积累的智慧越多。

基本上把特征分三类特征,一个是人的特征,人有兴趣、职业、年龄、性别、畸形,还有用户行为。环境的特征、地理位置、时间、网络、天气。文章的特征、之前的信息服务可能用的比较多,有主题词、有主题、有隐含主题、有热度、有时效性、有作者的来言,还有相似的文章。

系统会记录某个时刻,在某个地点,因为某个原因给某个人推荐了一条内容,如果能捕捉到,是很快的划过了内容,还是在列表页停留了,在这条内容上还是点进去读了一半,还是认真读完了,每一个这样的行为给系统就做了一次教育。

久而久之系统在这三类维度,每类维度下,更多的非常丰富的组合下,统计出了知识规律。大家可以想象这三大类维度,分下底下的子维度,每个维度又有很多的曲子,整个断层出来是一个非常高维度的矩阵空间,极其的好处是能够把这些规律给学习下来。

能够统计出在一个周五的晚上,一个清华的男生和一个人大的女生,他们有什么兴趣爱好的不同,可能给他们推荐不同的内容,会有不同的反馈。

我认为构建一个自我演化的系统,记忆三种能力正是这三种能力在最近三四年大幅度的提升,才带来提供这种服务这种可能的时间点的来临。我认为这三种能力是观察、记忆、理解。

手机设备带来了很强的输入输出功能,带来了很多的传感器,不论是经纬度还是手势重力传感器、速度传感器,带来了很多很多的信息输入。移动互联网带来了强大的连接能力,所以系统云端对于用户的观察能力就是大幅度增强了记忆能力。

记忆能力其实最近几年有非常大的发展,如果大家留心关注大概在零九年、一零年开杜浦开研技术领域杜普spak之类的普及。像用户一天大概会产生一千条日志,每个日志大概有几十个日字段,每天的日志在百亿级别。

虽然在互联网时期大家也存储网站日志,但是基本上只统计一下ip有多少、pp有多少、筛选有多少,就基本上就是按这个维度统计一下前机的特性。

但是在自我演化的系统中记忆能力要求更高,必须把这些行为数据结构化的供存储,必须解析出来,供给批量的存储、批量的访问以及流速的存起和访问,所以对系统的记忆能力有大幅度的要求。

理解能力也是这几年工业界跟协术界带来的重大进步,有了很多的用户行为,但是光有行为意志是不够的。最简单的方式只能知道一个总数或者简单的知道一下地域,每个用户看或者不看的行为,这一群用户看或者不换不看的行为需要更高的运算能力。

理解能力又分两个维度。

·第一个是理解数据的规模的能力,基本上跟分布式大规模机器学习相关。在之前工业界没有提供好的方案,之前是没法理解,每天百亿,这一百天就是一万亿级别的调记录。

·第二个是跟协术界以深度学习为代表的模型技术的发展相关。因为越复杂的模型能够理解的知识越深刻,能够对规律和知识理解的颗粒度越精细。

所以在我看来这三种能力的大幅度提高为新型的信息服务提供的可能。这边我还要提到社交网络的发达,也对一个人留下他的社交痕迹,你评论了什么、点赞了什么、转发了什么内容也都是为给系统的更多的输入。

这是系统中两个用户的兴趣的标签,这两个都是使用时间较长的用户,把一部分好理解的兴趣给提取出来。一个是七零后的男生,一个是九零后的女生,他们的信息形成用系统对他们的理解完全是基于他们的行为,并且不仅是基于他们的行为,基于他们具有相同共性的用户的行为放化到他们身上。

所以一个新用户很可能也能够获得g c对他的理解,g 一对人的理解、对场景的理解,就能够随时随地的推荐用户此时此地,最应该感兴趣的内容,有自我演化能力的信息服务起来之后,对用户、场景、信息的理解增强之后,广告将不再是以门户网站那种强行插入用户视觉区域的方式提供。

不论是banner、对联、灯笼的形式,积极对用户的理解,广告将更快、更精准的抵达有需求的用户,可以最小化对非受众的干扰。同时广告本身必须具备可读性或者直接能提供服务。

之前看到的banner的广告或者灯笼、对联的广告都是以视觉冲击为主,而不是直接提供可阅读性或者能够直接提供服务。这是提供的一个广告的例子,系统自动的给一二线城市偏对偏对数码感兴趣的用户推荐了一款智能路由设备。

广告的阅读点击到转化成预约用户转化率都非常高,并且广告的阅读力基本上跟同样的文章、新闻博客的阅读率是相当的。所以当广告本身是具有服务价值并且提供可阅读性的时候,广告对用户来说就是一个用户体验了,就不再是一个广告。

对于今日头条而言,愿景是理解更多的信息和场景。刚刚说了机器的三种能力,希望在不断的增强系统对用户的观察能力、行为特征的记忆能力以及对用户信息场景的理解能力,同时希望理解更多人的更多维度的兴趣,依赖于用户规模和用户行为的频率。

因为只有刚刚说了三类特征下面的几十个维度,它们的值展开在差层,这是一个非常高维的空间。只有越高密度的用户行为才能把可自我演化的系统教育的越好,系统对知识的理解的层次、颗粒度、精细程度才能够越高,系统才能够不断的自我演化更快。

解释一下就是如果同样两个系统,如果代码一样部署一样,一个系统经过用的时间越长,使用的人越多,能够提供更好的服务。甚至在此刻如果把其他的用户都去掉,就留这一个用户,也能够提供很好的服务。

因为系统已经学习到了很多的知识,但是在这个过程中技术还是起非常重要的作用。因为在同样积累数据的情况下,不同的机器学习的模型对数据的理解能力、对知识的记忆能力以及表达能力,表达其实就是对信息的预测、对推荐结果的预测,是会有非常大不同的。

所以要做的事情是不断的提高系统本身的能力,同时加大系统的输入,更多的输入,更长时间的输入,来达到更好的服务。

在这个时间点上看,以前的技术变革基本上都是物理技术的变革,不论是造纸、印刷还是无线电,基本上是物理技术的变革。但是自己强烈感觉到在这个时代有机会通过计算机算法在支撑这三种能力的工程技术算法的大幅度的提高,有机会给全球的用户提供一种全新的不同的获取信息、传播信息的方式。

来源:头条星播客

相关推荐