中科大华为发布生成式推荐大模型，昇腾NPU部署，背后认知公开

摘要：总结推荐范式发展历程，指出具备扩展定律的生成式推荐范式是未来趋势；复现并研究不同架构的生成式推荐模型及其扩展定律；通过消融实验和参数分析，解析HSTU的扩展定律来源，并赋予SASRec以可扩展性；验证HSTU在复杂场景和排序任务中的表现及扩展性；团队展望并总结

在信息爆炸时代，推荐系统已成为生活中不可或缺的一部分。Meta率先提出了生成式推荐范式HSTU，将推荐参数扩展至万亿级别，取得显著成果。

近期，中科大与华为合作开发了推荐大模型部署方案，可应用于多个场景。

探索过程中还有哪些经验与发现？最新公开分享来了。

报告亮点包括：

总结推荐范式发展历程，指出具备扩展定律的生成式推荐范式是未来趋势；复现并研究不同架构的生成式推荐模型及其扩展定律；通过消融实验和参数分析，解析HSTU的扩展定律来源，并赋予SASRec以可扩展性；验证HSTU在复杂场景和排序任务中的表现及扩展性；团队展望并总结未来研究方向。

如图1所示，推荐系统的发展趋势是逐渐减少对手工设计特征工程和模型结构的依赖。在深度学习兴起之前，受限于计算资源，人们倾向于使用手工设计的特征和简单模型（图1A）。

随着深度学习的发展，研究者专注于复杂模型的设计，以更好地拟合用户偏好，并提升对GPU并行计算的利用率（图1B）。

然而，随着深度学习能力的瓶颈，特征工程再次受到关注（图1C）。

如今，大语言模型扩展定律的成功启发了推荐领域的研究者。扩展定律描述了模型性能与关键指标（如参数规模、数据集规模和训练资源）之间的幂律关系。通过增加模型深度和宽度，并结合大量数据，可以提升推荐效果（图1D），这种方法被称为推荐大模型。

近期，HSTU等生成式推荐框架在此方向取得了显著成果，验证了推荐领域的扩展定律，引发了生成式推荐大模型研究的热潮。团队认为，生成式推荐大模型正在成为颠覆当前推荐系统的下一个新范式。

在此背景下，探索哪些模型真正具备可扩展性，理解其成功应用扩展定律的原因，以及如何利用这些规律提升推荐效果，已成为当前推荐系统领域的热门课题。

为了评估生成式推荐大模型在不同架构下的扩展性，团队对比了HSTU、Llama、GPT和SASRec四种基于Transformer的架构。

在三个公开数据集上，通过不同注意力模块数量下的性能表现进行分析（见表1）。结果显示，当模型参数较小时，各架构表现相似，且最优架构因数据集而异。

然而，随着参数扩展，HSTU和Llama的性能显著提升，而GPT和SASRec的扩展性不足。尽管GPT在其他领域表现良好，但在推荐任务上未达预期。团队认为，这是因为GPT和SASRec的架构缺乏专为推荐任务设计的关键组件，无法有效利用扩展定律。

为了探究HSTU等生成式推荐模型的可扩展性来源，团队进行了消融实验，分别去除了HSTU中的关键组件：相对注意力偏移（RAB）、SiLU激活函数，以及特征交叉机制。

实验结果（见表2）显示，单一模块的缺失并未显著影响模型的扩展性，但RAB的移除导致性能明显下降，表明其关键作用。

为了进一步分析赋予模型扩展定律的因素，团队比较了SASRec与扩展性良好的HSTU和Llama的区别，发现主要差异在于RAB和注意力模块内的残差连接方式。

为验证这些差异是否为扩展性的关键，团队为SASRec引入了HSTU的RAB，并调整其注意力模块的实现方式。

实验结果（见表3）显示，单独添加RAB或修改残差连接并未显著改善SASRec的扩展性。然而，当同时修改两个组件后，SASRec展现出良好的扩展性。这表明，残差连接模式与RAB的结合，为传统推荐模型赋予了扩展性，为未来推荐系统的扩展性探索提供了重要启示。

HSTU在多域、多行为和辅助信息等复杂场景中表现出色。以多域为例，HSTU在AMZ-MD的四个域中始终优于基线模型SASRec和C2DSR（见表4）。

与单域独立训练的HSTU-single相比，多域联合训练的HSTU表现更佳，证明了多域联合建模的优势。表5显示，HSTU在多域行为数据上的扩展性显著，尤其在规模较小的场景如Digital Music和Video Games上。这表明HSTU在解决冷启动问题上具有潜力。

排序是推荐系统中重要的一环，团队深入探讨了生成式推荐模型在排序任务中的有效性和扩展性。正如表6所示，生成式推荐大模型在性能上显著优于DIN等传统推荐模型。尽管在小规模模型下，Llama的表现优于HSTU，但HSTU在扩展性方面更具优势，而Llama在扩展性上显得不足。

团队还研究了负采样率和评分网络架构对排序任务的影响，并进行了全面分析。此外，还探讨了缩减embedding维度对性能的影响。缩小embedding维度（表7）提升了小数据集ML-1M和AMZ-Books的性能，但在大数据集ML-20M上则有所下降。这表明，推荐大模型的扩展定律不仅受垂直扩展（注意力模块数量）影响，也受水平规模（embedding维度）影响。