“物以类聚，人以群分”——算法如何实现个性化内容推荐

摘要：近日，中央网信办等四部门联合印发通知，部署开展“清朗·网络平台算法典型问题治理”专项行动，重点整治同质化推送营造“信息茧房”等问题。在网络文艺领域，算法被应用于个性化信息推荐，在海量信息中提高了内容与用户需求匹配度，降低了文艺产品的获取和传播成本。但与此同时，

【面面观·算法逻辑与算法治理】

作者：王鑫（山东大学文学院助理研究员）

近日，中央网信办等四部门联合印发通知，部署开展“清朗·网络平台算法典型问题治理”专项行动，重点整治同质化推送营造“信息茧房”等问题。在网络文艺领域，算法被应用于个性化信息推荐，在海量信息中提高了内容与用户需求匹配度，降低了文艺产品的获取和传播成本。但与此同时，算法歧视、大数据“杀熟”、诱导沉迷等问题饱受诟病。本期三篇文章围绕算法的运行逻辑及其带来的影响，算法治理的重点和难点等进行阐释，敬请关注。

基于算法技术的人工智能满足了用户多样化文艺需求。新华社发

今天，算法推荐已经无处不在：广告、短剧、小说、音乐乃至新闻、资讯……它已经与搜索引擎并肩，成为人们获取网络信息的主要方式之一。在这种境况下，理解算法推荐，对于理解今天的媒介环境至关重要。

那么，什么是推荐？人们最熟悉的推荐方式是人对人的推荐：一个人向另一个人推荐某物，认为对方“用得上”“会喜欢”；或者是一个人请求另一个人为自己推荐某物，认为对方“经验丰富”“眼光好”。这种推荐背后往往存在一个预设：一个人和另一个人可以就“喜好”“需求”达成共识。这种共识基于人与人的相互理解。

算法推荐不需要这种“理解”。简单来说，算法是一台“匹配”机器，能够按照一定的程序和编码，把人和相关信息“匹配”起来。算法工程师们需要考虑的是，如何让一个人恰好遇到他想遇到的信息？这其实是一个“控制论”问题：“让两个东西在同一个时空相遇。”美国数学家诺伯特·维纳在提出控制论时，正是要想办法让战争中的炮弹和敌军飞机在同一时空相遇（他将炮手和炮台、驾驶员和飞机整体视为两个复杂系统）。今天的算法推荐，也正是要对巨量的用户和信息进行“匹配”，令双方恰当地“相遇”。

要实现这个目标，就需让算法具有把握“人想要什么”的能力。在人和物之间建立某种关于“偏好”“需求”的关联。人们想出的办法是利用相似性原理。1997年，电子购物先驱亚马逊首次在商业上采用算法推荐，根据用户的购买记录推荐相似商品，取得相当不错的效果。这项技术被称为“协同过滤”，“协同”指它需要用户的参与合作（如购买、打分、评价等行为），而“过滤”即系统筛选。2003年，亚马逊发表了相关论文，标志着这个算法开始被广泛应用。直至今日，“协同过滤”仍然是当下最经典、最常用的推荐算法。

此外，随着大数据技术的成熟，人们还可以做到将人的偏好和需求数字化。这里出现了一种名为“用户画像”的商业手段。一方面，人们可以用统计学的方式获得大众的信息，并进行分类和提炼，为之打上不同的标签（年龄、性别、学历等），勾勒出围绕在某种偏好/需求周围的用户形象；另一方面，人们也可以为小说、影视、音乐、短剧、游戏、广告等文化产品打上相应的标签（类型、情绪、流行元素等），记录产品的内容、功能或特征。此时，如果双方的标签具有统计意义上的高相关度，就可以尝试匹配。

对于这种匹配的结果，用户还可以在另一端反馈：点击“喜欢”是正反馈，以增加相似的推荐；点击“不感兴趣”则是负反馈，以减少相似的推荐。而用户的其他行为，甚至是无意识行为——比如在一个信息停留的时长、观看次数、是否分享、是否和人聊天时提及——也都会被各种传感设备和记录设备捕捉、整理，同样会作为反馈传递给算法，影响下一次计算过程的标签权重。

早期的协同过滤大多是“基于物品的协同过滤”。在此基础上，2010年以来人们还发展出了“基于用户的协同过滤”。这是一个令“猜你喜欢”成功运作的机制，其核心是：“和你相似的人，也会喜欢你喜欢的东西”，即所谓的“物以类聚，人以群分”。比如，如果系统发现位于某个地区、常购买某类物品、喜欢听某人的歌、有某种程度学历的女性大都喜欢看某个类型的“霸道总裁”。那么，当系统下一次遇到一位符合条件的女性，即便她此前从不看任何“霸道总裁”，也会为她推荐，而且成功的概率很大。通过这种方式，算法能够在个体的“意料之外”推荐其偏好的内容，实现某种“个性化定制”的效果。但实际上，算法并不关心一个人的“个性”，它关心的反而是人与人之间的“共性”，并对新加入的成员进行偏好预判。这也带来新的忧虑，当预判高度准确时，人们依然会担心自己是否处在只有自我、没有他者的“茧房效应”中。

在一个更宏观的尺度上，算法推荐服从模型的数学和统计学特性。一个重要的特征是幂律分布。幂律分布是一条向下的、拖着长长尾巴的曲线，描述了在自然世界或人类社会中，“只有少数事务具有极大影响力，而大多数事务具有较小的影响力”的现象。这个世界上绝大多数大样本量模型都服从幂律分布，包括但不限于城市人口、地震强度、生物体积、太阳耀斑等，网络流量也不例外。

今天，人们已经察觉网络流量分布的不平等，将它们总结为“二八定律”，即粉丝数排在前20%的“大V”（拥有高粉丝量的用户）掌握80%的流量，后80%的中小用户只占20%流量的现象。但在另一边，幂律分布也带来“长尾定律”，它反映了另一种现象：分布中，存在大量影响力极小的样本，但总数加起来后仍非常可观。这意味着无论是多么小众的领域和作品，都会有相应的用户，不应该被忽略。这就是幂律分布两个最重要的数学特性。因此，要丰富推送内容，打破“二八定律”，让更多“长尾”被看到，商业公司除了要调整经营策略，还需要投入额外的算法改进机制。

当下，协同过滤和大数据、深度学习、人工智能等进一步配合，已经令算法推荐大抵呈现为一个黑箱，远远超出人类可理解的范畴。但可以想象，通过人类的调试和修改，这项技术也将更加先进，变得更加灵活多样、富于变化，适应各种各样的人类需求。我们有理由期待一个更好的、分配机制更公平友好的未来：彼时，“物以类聚，人以群分”将变得更加“丝滑”和生动，人们也能克服既有的茧房效应和流量至上，生活在更丰富的信息环境中。