Latent Cross: Making Use of Context in Recurrent Recommender Systems
Introduction
在本文中,作者首先研究了在前馈神经网络中将情景特征直接构造出特征的方式对于捕捉特征交叉效果一般。然后作者介绍了Youtube中使用的RNN模型,最后提出了Latent Cross模型,通过将情景特征和RNN中隐状态做点积的方式将情景信息添加到模型中。
RNN Baseline
Framework
Context Feature
作者提到模型有效的关键就是引入了情景特征,而不仅仅是视频的序列。这里主要提到了三种情景特征。首先是时间特征, ,不用多说时间特征对提高模型准确度的重要性。其次是Software Client,视频可以在不同的设备上浏览,比如短视频更容易在手机上观看。最后是Page,就是浏览视频的页面的上一个页面(跳转前的页面),比如从网站主页面开始浏览的话可能对新内容更容易接受,而从一个具体的视频页面跳转之后可能对一个特定的主题更感兴趣。
- Pre- and Post-Fusion
这里将情景特征标记为 。如框架图所示,情景特征可以从网络的底部作为输入(称作pre-fusion),也可以和RNN的输出concat一起(称作post-fusion)。把 作为pre-fusion特征来影响RNN的状态,而把 作为post-fusion特征来直接用于预测 。
Context Modeling with the Latent Cross
Single Feature
以时间特征t为例,对网络结构中
的处理如下:
使用均值为0的高斯分布来初始化
,因此可以解释为在隐状态上加了attention或者说mask。另外也可以捕捉上一次浏览记录和时间特征的低秩关系。同样,
也可以做类似处理
。
Multiple Features
以时间t和设备d为例,对隐状态可进行如下转换:
采用这种形式的原因,除了刚才提到的类似attention机制和捕捉2-way relation外,还有一个原因就是采用简单的加法运算更容易训练。更复杂的方式比如乘积形式 或者学习一个函数 都会使得模型更难训练,最终的效果也偏差。