摘要:在动态变化的在线社交网络中,信息传播的路径与用户参与行为往往难以预测。传统研究多聚焦于信息级联的最终规模或早期爆发潜力,然而如何精准预测用户在信息传播下一阶段是否会从“倾听者”转变为“传播者”,仍是一个开放性问题。《IEEE Transactions on N
导语
在动态变化的在线社交网络中,信息传播的路径与用户参与行为往往难以预测。传统研究多聚焦于信息级联的最终规模或早期爆发潜力,然而如何精准预测用户在信息传播下一阶段是否会从“倾听者”转变为“传播者”,仍是一个开放性问题。《IEEE Transactions on Network Science and Engineering》最新发表的论文《Predicting Participation Shift of Users at the Next Stage in Social Networks》提出了基于三排序 ( Triple Ranking, TR)的无监督预测模型,通过整合用户的社交影响力、时间属性和级联相似性,显著提升了用户传播状态的预测性能。该模型在三个真实推特数据集上的实验表明,不仅预测性能超越现有最优算法,而且计算复杂度更低,为社交网络行为分析提供了高效工具。
关键词:社交网络、信息传播建模、用户行为预测
张毅超 丨作者
论文题目:Predicting Participation Shift of Users at the Next Stage in Social Networks
论文链接:https://ieeexplore.ieee.org/document/10829773
最近由同济大学的张毅超教授及其团队领衔的研究,提出了一种创新的无监督三排序 (TR) 模型,旨在解决社交网络中用户下一阶段传播状态的预测问题。该模型结合社交引力排名 (Social Gravity Ranking) 、曝光时间排名 (Exposure Time Ranking) 和级联相似性排名 (Cascade Similarity Ranking) ,多维度地从社交影响力、级联中的时序和位次信息对用户的传播特征进行刻画,提升了模型预测的准确性和可解释性。
具体来说,社交引力特征对社交网络上用户间的信息传播影响力进行了建模,在刻画了邻域子图的结构信息的同时也显著降低了计算复杂度。曝光时间特征则是提出了“曝光时间”的概念,通过对信息级联中用户传播行为时间差分布的统计,捕捉了不同信息级联在传播过程中的复杂时序特征。此外,级联相似性特征则是参考 DeepWalk [1]将图节点映射到低维向量空间的向量化建模思路,利用级联中已参与传播的用户序列为每个用户学习级联嵌入表示,使得经常出现在级联中相近位置的用户在向量空间中的距离也更近,充分地挖掘了信息级联中的位次信息。
此外,本研究提出了一种基于排序融合的无监督信息传播者预测算法,基于上述三种时空特征从不同的角度分别计算候选者的排序,最后通过加权求和获取候选者的最终排序。在最终排序中位次靠前的候选者将被预测为下一阶段传播的参与者。这种排序融合的方式能够避免三种特征在量纲上差异给融合带来的困难,并显著提升模型的预测性能。
实验部分在三个真实的信息传播数据集上对用户在不同阶段的信息传播状态进行了预测。结果表明,该模型的预测性能要优于基线模型,并且计算复杂度也显著低于现有的基线模型。
本研究为后续信息传播建模研究提供了一个具有良好可解释性且高效的模型,所提出的社交引力、曝光时间、级联相似性等概念为网络节点间影响力的度量提供了全新的视角。
信息在社交网络中的传播往往呈现复杂的时间与空间特性。用户从“接收信息”到“主动传播”的转变 (即从“听众”转变为“参与者”) 受到社交关系、级联时序和位置关系的共同影响。现有方法多依赖监督学习或简化假设的经典传播模型,难以有效捕捉多源特征间的非线性关联。此外,在数据稀疏时,模型的预测性能会显著下降。本研究提出的三排序模型,通过无监督方式融合社交网络的拓扑结构、级联的时间模式及用户行为序列的隐含级联位次关联,为解决冷启动问题提供了新思路。
图 1 展示了本研究提出的三排序传播者预测模型的总体框架。首先,本研究创新地在社交网络信息传播场景下提出了三种时空特征,即偏好相似性特征、社交引力特征、曝光时间特征、以及级联相似性特征。这些特征分别对用户在级联传播中的偏好、社交影响力、级联中的时序和位次信息进行了细粒度的刻画。
2.1 社交引力特征
受牛顿万有引力定律启发,本研究对社交网络上用户间的信息传播影响力进行显式建模。具体而言,对于一个未参与传播的用户和一个已参与传播的用户u,我们定义社交引力
2.2 曝光时间特征
在社交网络中,关注者能够接收到被关注者发布的信息;但通常不同的关注者接触并转发原始推文的时间间隔是不同的。
图 2:曝光时间特征的计算示例。
基于此,本小节统计了同一个信息级联上不同用户的“曝光时间”值,将统计得到的概率分布作为用户参与传播的概率随时间变化的表征。换句话来说,对于一个初始用户和一个未参与传播的用户,若用户在用户的邻居集合,那么用户在级联中的曝光时间总和这里Θ ∩ 表示对施加影响力的用户集合是的邻居 (在有向图中为父节点) 中已参与传播的用户。
和未参与传播用户计算其曝光时间总和的示例。具体来说,对于已参与传播用户,他有两个已参与传播邻居和,他们的参与传播时间分别是这个概率值也从另一个角度反映了候选用户的曝光时间总和与已参与传播用户曝光时间总和的相似程度;如果这个概率值很大,说明这个候选用户在信息传播过程中的时间差异特征和大部分已参与传播用户的时间差异特征很相似,这意味着他很有可能在下一个时段参与该信息级联。
2.3 级联相似性特征
在信息传播过程中,用户之间的影响并不总是通过直接的关注关系施加的,也会有外源性的因素[4]对彼此不是关注关系的用户甚至是非连通的用户施加影响。首先,将信息级联中的用户序列作为输入。接着,使用 One-hot 编码将这些用户 ID 映射为嵌入向量 ,并使用 Skip-gram 算法学习用户的级联嵌入表示。类比在自然语言处理中,Skip-gram 算法通过学习句子中词与词之间的上下文关系来学习词向量,这里我们通过学习用户与用户间在信息级联中的前后位次关系来学习用户的级联嵌入表示。
在得到了用户的级联嵌入表示后,我们可以计算用户和用户之间的级联相似性注意,和上述两种特征不同的是,这里对 施加影响力的用户范围是时段级联中所有已参与传播的用户集合Θ ,这里的与可以不连通。
2.4 排序融合算法
基于前文得到的三种特征的排序结果,分别是 SGR、ETR 和 CSR,我们可以将这四种特征的排序结果加权融合,得到最终的排序结果:
R = α ∙ SGR(τ) + β ∙ ETR + (1 − α − β) ∙ CSR,
其中,α和β分别用于控制社交引力排序和曝光时间排序的重要性程度。在得到所有候选者的排序得分R后,如果候选者v的最终排序得分处在前p %内,模型就会预测他在下一个时段 + 1内参与该信息级联。表 1 展示了各基线模型 (CT、DT、GT) 和三排序模型 (TR) 在 Higgs 数据集的不同时段上的对比实验结果。表中分别列出了各模型在不同规模的级联测试集上的排名表 现,其中 candidates 指出了测试集中的待预测用户数量。实验结果表明本研究提出的三排序模型在所有时段的加权排名上都显著优于其他的基线模型,说明了所提出的三种时空特征建模方法与排序融合算法的有效性。同时,CT 和DT 模型的预测表现非常接近,这是因为这两个模型都是基于社交影响力的传播者预测模型,区别只是 DT 模型在计算社交影响力时引入了一个时间衰减因子。其他数据集上的对比实验结果可以参考原文中的第 VII 节。
表 1:各基线模型 ( CT、DT、GT)和三排序模型 ( TR)在 Higgs 数据集的不同时段上的对比实验结果。每一行对应一个时段上的预测结果,每一列对应了一种对比模型。每一行都用粗体标识了取得最好结果的模型。
同时,参考之前研究的做法[2],我们对三种排序的功能进行了可视化分析。图 3 展示了使用 t-SNE 对每个候选用户的特征向量降维后的结果。在图 3(a)中,我们基于候选用户的真实传播标签 (即 1 表示已参与传播,0 表示未参与传播) 对其进行着色。在其余的子图中,我们根据用户不同的特征 (例如,社交引力分数) 对节点进行着色。值得注意的是,为了比较本文提出的特征和常用节点重要性特征之间的差异,我们还在图 3(b)中展示了各节点 PageRank [3]的可视化结果。此时,某个特征的着色结果与子图 (a)越一致,则说明该特征对于模型的性能越重要。
基于可视化结果,不难看出:(1)图 3(a) 和图 3(b) 中的数据点被聚类成若干个团簇,每个团簇中的转发用户和未转发用户的比例是互补的。(2)图 3(d)、图 3(e)和图 3(f)中的颜色模式与图 3(a)中的正例的颜色模式一致,说明这三个特征对于预测用户的转发行为是非常重要的。因此,这些可视化结果证明了本文提出的三种排序特征在分时信息传播者预测任务上的有效性。三种特征分别从社交影响力、级联中的时序和位次信息的角度刻画了用户参与信息级联的倾向性。
图 3:t-SNE 可视化结果。图中的每个点都代表测试集中的一个用户。我们基于特征值或者标签值对这些点进行着色。红色表示较大值,蓝色表示较小值。子图上方的标题则对应了每个特征或标签的名称。
这项研究对信息传播领域的研究具有重要的理论和应用价值,尤其是社交影响力、曝光时间与级联相似性概念的提出给社交网络分析以及图数据相关领域的研究提供了新的视角。其次,由于三排序模型在计算复杂度上的优势,它在大规模社交网络以及需要实时反馈的下游应用中将扮演重要的角色。随着研究的深入,我们在未来的研究中将进一步整合文本内容特征与动态网络演化,探索多模态数据下的传播模型。此外,课题组计划将三排序模型的应用场景扩展至跨平台信息传播,以验证其泛化能力。
来源:科技财经解读