Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit Feedback

 

背景:

本文针对GCN进行改进。用户的历史交互序列中,可能存在假阳性物品,会通过消息传递的方式对用户的兴趣表征造成污染。本文提出了一种软剪枝的方法,旨在切断与假阳性物品连接的边。形式上与GAT很相识,但性能却提升了很多,总的来说本文模型为:注意力+GNN。

方法:

用户/物品的特征表示构造如下:

concatenate the multimodal features and the enriched ID embedding as a whole vector

让我们来剖析一下公式:

首先 e_u =\sum_{l=0}^{L}e_u^{(l)} , e_i = \sum_{l=0}^{L}e_i^{(l)},其中e_u^{(l)} = \sum_{i\epsilon N_{(u)}}s_{u\leftarrow i}e_i^{(l-1)},     e_i^{(l)} = \sum_{u\epsilon N_{(i)}}s_{i\leftarrow u}e_u^{(l-1)}

e_u^{(l)}表示聚合了l跳邻居信息后的结果,可以看到,本文考虑了各层邻居的影响,将0……L层聚合结果求和作为最终的特征表示。e_u^{(0)}/e_i^{(0)}为初始的id embedding

公式是不是很简单,和GAT类似,都是在消息传递的时候添加了注意力。重头戏来了,让我们看一看注意力的计算方式。本文用的是短视屏数据集,对于短视频而言数据是多模态的(图像,声音,文字),以模态m为例,注意力分数计算公式如下:

\overline{i}_m,\overline{u}_m分别表示用户和物品在模态m上的特征表示。

对于物品来说,可以直接从原始数据上提取特征:     \overline{i}_m = leaky\_relu(W_mi_m+b_m)

而用户特征是通过对交互物品的特征进行聚合得到的,为了使表征更贴合用户的真实情况,本文进行了T次迭代,并将结果作为用户的特征表示(\overline{u} = u_{(T)}):

 看到这儿,你可能会问:上面的公式是模态m上的注意力公式,那对于多模态数据,存在多个分数呢??到底用哪个啊??

本文提出了一种多模态分数融合方式:

 \rho可以提升表示能力。

猜你喜欢

转载自blog.csdn.net/qq_42018521/article/details/129988286