摘要:比如很多文章都会写到,短视频平台的推荐算法是在给内容和用户打标签,然后去做相互匹配,这种甚嚣尘上的说法甚至反过来指导了做号产业,产生了很多教人在养号时怎么引导系统给自己打标签的玄学。
文 | 阑夕
抖音做了一件几乎没有其他国内互联网大厂会做的事情:在最大程度上,公开了抖音的算法规则。
被公开的那些信息有多详细呢,从技术原理到具体模型,甚至是计算公式,全都图文并茂的逐一做了解释,足以作为一本入门级的科普读物出版。
除了在已经上线的「安全与信任中心」网站汇总之外,抖音还在北京办了一场线下公开课,让算法工程师担当主讲者,深入浅出的把所有细节又复盘了一遍。
抖音固然有它的压力所在——算法因其黑箱性质越来越从抗压位向背锅位转移——但是为了打消社会疑虑,抖音能够事无巨细的把算法摊开到这种地步,还是比较少见的。
而这逐字逐句的看完所有内容之后,可以这么说,当前市面上绝大多数非技术类媒体所讨论的算法问题,都是错的。
这里的错,首先指的不是主观意义上的歪曲,而是过时。
比如很多文章都会写到,短视频平台的推荐算法是在给内容和用户打标签,然后去做相互匹配,这种甚嚣尘上的说法甚至反过来指导了做号产业,产生了很多教人在养号时怎么引导系统给自己打标签的玄学。
但事实上,标签机制是人工编辑时代的经验残余,是让算法模仿人类的糊涂做法,只有在非常早期的推荐算法里才有用过,当机器学习的技术成熟之后,依靠几百个标签去理解内容的做法就完全被淘汰掉了。
这意味着,今时今日的算法不需要去懂内容,这听起来有些反直觉,它不懂内容,怎么知道该把什么视频推送给什么人呢?
答案是:基于特征向量的数学统计。
说人话就是,算法会围绕用户的反馈建模,有没有点赞、看到了第几秒、写了什么评论、是否点开了作者主页……等等,这些互动都会让算法对一个用户的了解逐渐加深,最终越来越准确的「预测」他会感兴趣的下一条视频。
机器学习领域的顶级专家吴恩达教授做过一个系列的「Machine Learning」课程,里面也讲过机器学习对推荐算法的主要贡献在于建立评分系统,在海量算力和海量供给的环境里,可以无限接近给用户推荐以他为标准的高评分内容的目标。
在炙手可热的大模型行业,「预测」也是一个非常熟悉的运行原理,ChatBot对答如流背后,实际上是在不断「预测」下一个Token,AI并不真的懂得它在说什么——所以才经常有分辨不出9.11和9.8哪个数字更大的笑话——所有的输出表达,其实都是以最大的概率把字词组合在一起罢了。
至于为什么算法变成了包括抖音在内的几乎所有平台都必须使用的分发技术,这还是和信息爆炸的环境有关。
根据IDC的报告显示,全球每年产生的网络数据量已经达到了175ZB,如果把它理解为一部4K视频,一个人需要花9亿年的时间才能全部看完……这已完全超出了历史上任何一个时代需要处理的信息体量。
抖音的算法工程师在公开课上也说得很直白,抖音每天新增视频高达亿数量级,而普通用户平均每天能够消费的视频撑死了也就几百条,那么在这有限的几百条视频里,怎么尽可能的确保它们都是用户喜欢的,就是算法需要不断精进的母题。
这里面有个非常生动的概念,叫作「召回」,目的是把数量级降低,从数以亿计逐渐减少到数以万计、数以千计,直到筛选出几条用户能够刷到的内容,一切都要依靠算法的「召回」能力。
吴军博士在「数学之美」里讲过一个类似的科普:
假如足球世界杯刚刚结束,我却很不凑巧的错过了所有比赛,于是问一个知道结果的球迷「哪支球队是冠军」,但他不愿意直接告诉我,而是让我猜,每猜一次,他就要收一块钱,并告诉我猜得是对还是错,那么我需要掏多少钱才能知道世界杯冠军呢?
直率的人可能已经抢答了,世界杯总共有32支球队,最保险的做法就是猜32次嘛,所以运气不好的话,可能需要掏32块钱才能得到答案。
但数学的「召回」方式是,把32支球队编号,从1到32,然后提问「冠军在1号到16号之中吗」?如果猜对了,就继续问「冠军在1号到8号之中吗?」如果猜错了,那么我就会知道冠军必然在9号到16号之间。如此一来,只需要5次,我就能知道哪支球队夺冠了,而成本只需要5块钱。
这就是数学模型的本事,它并不需要知道这32支球队的强弱关系,却能以低且简洁的成本最大概率「召回」答案,对于通信、数据压缩、自然语言处理都有很强的指导意义。
当然推荐算法要复杂得多,而且涉及到多种技术的组合作用,比如最经典的协同过滤,张三和李四的点赞重叠度很高,那么就会多尝试把李四喜欢而张三还没有刷到的视频推荐给张三,而在有了神经网络的加持之后,算法还能练就记忆和泛化两大能力,挖掘用户行为背后的深层意图——可能连用户自己都没意识到的——然后去做更有想象力的扩圈推荐。
简而言之,在这个高密度的数据化时代,「尿布与啤酒」的关联神话早就过了版本,在计算资源的充分供应下,推荐算法的研究方向各有所长,但它们的共性在于,都不需要真的去学会像人类一样感知情绪、画面或是语义,而是越来越擅长把用户行为抽象成数学里的映射关系,最终预判出哪些视频会让用户做出愿意看完、点赞、收藏、推荐等等高满意度的正反馈。
所以,只有在对算法有了这些最朴实的了解之后——既明白它的深厚之处,也看得出基础性的常识——才会避免陷入动辄妖魔化算法的暴论陷阱。
最常见的误解,有三种,首当其冲的就是大名鼎鼎的信息茧房。
去年在和人民大学新闻学院副教授董晨宇的一期连麦里,我们也谈过信息茧房这个概念「中热西冷」的古怪现象,虽然它确实是由西方学术界率先提出的,但因缺少实证支撑,热度很快就退潮了,但是反而中国经久不衰,CNKI里关于信息茧房的论文数量更是超过了1300篇。
无论是不是因为信息茧房以其生动形象的画面感而激发了大众的警惕性,真正的问题是,其实平台根本不希望助长所谓的信息茧房,遑论主动制造信息茧房。
来自抖音的一手数据显示,如果顺着用户的单一喜好去做推荐,很快就会拉低用户的留存,相反,当内容推送的多元化保持一段时间之后,用户的活跃度却有了长足的提升。
这意味着信息茧房和平台利益本身都是相互冲突的,平台非但不会放任信息茧房的存在,还有充足的动力去打破信息茧房,这对算法的挑战在于「既要又要」:既要多给用户推荐别处的风景,又要维持精确度的平衡,不能强行替用户决定他该看什么、不该看什么。
算法和用户之间有着长期磨合的关系,而抖音也为用户设置了主动表达喜恶的入口,比如不感兴趣这个信号会让兴趣退场——它代表着用户极其强烈的负反馈——本质上,用户才是算法的主人,他们的一举一动,无时不刻都在调较算法。
第二个广泛的误解,在于算法是流量至上的,可以轻易「造神」。
其实这类论调的持有者,大可以和那些经常抱怨抖音规则严苛一言不合就封号的人打上一架……这种完全矛盾的两种体感同时存在,正好就说明了,抖音是对纯粹的算法有着干预护栏的。
不止是抖音,所有主流的内容平台都配备了机器+人工的双重治理机制,机器负责宽度,对上亿条新增内容进行合规筛查,人工负责深度,对疑难内容进行负荷,避免错判和漏判,当然抖音因其规模之大,在这方面的投入只多不少。
也正是因为体量摆在那里,抖音确实能够长出一茬茬的「爆款」网红,但与其说是算法「推」出来的,不如说是用户「选」出来的,若是没有精准命中一次集体情绪,并引发大量用户的行为反馈,平台哪怕强推也是有心无力的。
最后一个误解,是关于抖音会让短且碎片化的视频泛滥,对需要专注力的中长视频不够友好。
早期的抖音,受产品形态制约,或许是该接下这个指控,不过时至今日,抖音已经是一个综合化的内容平台了,去年站内还产生了一条时长高达7个多小时的爆款视频「450分钟解读红楼梦」,足见供给和需求两端都很旺盛。
这也不是说一切都是自然发生的,恰恰相反,为了鼓励中长视频的消费价值,抖音的运营在幕后做了很多工作,就像前面已经说了,平台想要强推,在效果上的收益非常低,所以单纯的给所谓高质量视频「灌流量」是不可取的,平台真正发力的点,在于更新算法。
还是拿「450分钟解读红楼梦」为例,这样长度的视频,无论质量多好,它在完播率这个指标上,必然处于绝对的劣势,以致于连一般质量的视频都比不过,这会拖累算法对它的打分,但另一方面,「450分钟解读红楼梦」的收藏率则相当亮眼,从比例上远远超过了其他视频。
所以抖音的解决思路是,对多目标推荐系统做了彻底优化,并将收藏按钮放在了更突出的位置,由此显著改善了中长视频的分发效率,「450分钟解读红楼梦」就是在新的算法模型下跑出来的最佳时间。
更直接的例证是,抖音还专门为中长视频做了抖音精选的独立App,开发、推广和维护App都是需要投入资金的,如果不重视中长视频的内容,抖音何苦要花这些钱呢?
无论如何,抖音能把信息公开的主体责任落到实处,对所有人乃至整个行业,都是大有裨益的,先有知情,才会知道,技术固然有门槛,但它从来不是洪水猛兽,也不必总是讳莫如深,打开天窗说亮话,永远是值得鼓励的。
抖音的算法其实没什么神秘的独家诀窍。在如今技术高度流通的大环境下,各大公司在推荐算法上的实力差距并不大,只是侧重点有所不同。抖音的算法之所以备受热议,一方面是由于它作为行业头部平台,必然会成为众人关注的焦点;另一方面,抖音凭借丰富的数据资源,构建起强大的数据飞轮,使得其推荐体验相对更为出色。不过,为了消除外界对自身算法的误解,抖音仍有必要持续发力。
对任何新兴技术都是如此,毋须仰视,也不必无视,平视就好。
来源:阑夕一点号