WSDM25唯一最佳论文：从谱视角揭开推荐系统流行度偏差放大之谜

摘要：近日，第 18 届国际互联网搜索与数据挖掘大会（The 18th International Conference on Web Search and Data Mining, WSDM 2025）在德国汉诺威召开。本届会议共收录了 106 篇论文，荣获大会唯

近日，第 18 届国际互联网搜索与数据挖掘大会（The 18th International Conference on Web Search and Data Mining, WSDM 2025）在德国汉诺威召开。本届会议共收录了 106 篇论文，荣获大会唯一的一篇最佳论文奖（Best Paper Award）来自中国。

论文地址：https://arxiv.org/abs/2404.12008

这篇最佳论文题目为： How Do Recommendation Models Amplify Popularity Bias? An Analysis from the Spectral Perspective / 推荐模型如何放大流行度偏差？——基于谱视角的分析，由浙江大学计算机科学与技术学院 ZLST 实验室团队与中国科技大学、蚂蚁集团联合撰写。

这篇论文揭示了推荐系统流行度偏差放大的原因，研究团队发现：

流行度存储效应：推荐模型的评分矩阵的最大奇异向量（第一主成分）与物品的流行度向量高度相似，流行度信息几乎完全由主特征向量所捕获。

流行度放大效应：维度缩减现象加剧了流行度偏差的「放大效应」，主要源于推荐模型中用户和物品 Embedding 的低秩设定以及优化过程中的维度缩减。

为了解决这个问题，研究团队提出了一种基于正则项的方法—— ReSN ，通过在推荐模型的损失函数中引入谱范数正则项，约束评分矩阵的谱的权重（最大奇异值），从而缓解流行度偏差。

研究动机

推荐系统是基于用户的历史行为数据进行个性化推荐的核心技术。但你知道吗？推荐系统往往「偏爱」热门内容。

比如，在 Douban 数据集中，前 0.6% 热门物品占模型推荐物品的超过 63%，前 20% 的热门物品占了推荐列表的 99.7% 。这导致冷门物品几乎无缘被推荐，用户陷入「信息茧房」，无法发现更多新鲜、有趣的内容。

这要从数据的长尾分布开始说起，用户行为数据和物品的流行度通常呈现长尾分布，而推荐模型在这样长尾分布的数据上训练学习，不仅会继承这种倾斜的分布，甚至会放大，导致热门物品被过度推荐。

推荐系统为什么会放大流行度偏差呢？

核心发现

1. 流行度记忆效应：推荐模型的评分矩阵的最大奇异向量（第一主成分）与物品的流行度向量高度相似，最大奇异向量几乎完全捕获了物品的流行度特性。

实验发现，多个推荐模型的评分矩阵的最大奇异向量（第一主成分）与物品的流行度向量的余弦相似度超过 98%!

上述现象并不是偶然的，而有严格的理论支撑！对于有 n 个用户、m 个物品的推荐系统，设推荐模型给出的评分矩阵为，我们将评分矩阵SVD 分解为，其中最大奇异值对应的右奇异向量 q_1 捕获到了物品流行度 r∈R^m 的信息。特别地，当物品的流行度满足以 α 为参数的幂律分布时（即第 g 最流行的物品的流行度），我们证明了：其中，为 Riemann zeta 函数，满足 α→∞ 时 ζ(α)→1。此时，当流行度偏差非常严重，也即 α 很大时，上面的不等式右侧可以近似为 1。这验证了我们的实验发现，即评分矩阵最大奇异值对应的右奇异向量 q_1 记忆了物品流行度 r 的信息。对于一般情况以及证明感兴趣的同学们可以看原文！

2. 流行度放大效应：维度缩减现象加剧了流行度偏差的「放大效应」。

上面关于流行度记忆效应的分析说明物品流行度对推荐系统的预测结果有着举足轻重的影响。更进一步地，经验发现，即使前 0.6% 热门物品的流行度总和只占总流行度 20%，模型的推荐结果最终有多达 63% 属于这些热门物品！这说明推荐模型会放大流行度偏差！问题在于，这一现象的背后原理是什么呢？

我们的研究表明，低秩近似带来的维度缩减现象是罪魁祸首！具体来说：

推荐模型中用户和物品 Embedding 通常设置为低维（低秩），这种低秩设定会放大评分矩阵中最大奇异值的相对重要性，进而加剧流行度偏差；

优化过程中，最大奇异值增长优先且迅速，其他奇异值增长缓慢，导致模型更多依赖最大奇异特征（即流行度特征），从而进一步增强热门物品在推荐列表中的比例。

实验发现当 Embedding 维度减少时，主奇异值的相对重要性显著上升，推荐结果中热门物品的比例也随之增加。

实验还发现训练过程中的奇异值分布动态：早期主奇异值快速增长，这与热门物品的优先推荐趋势一致。随着训练继续，尾部奇异值增长滞后，流行度偏差仍保持较高水平。