深度学习推荐模型-NFM

本文参考链接，仅供个人学习：

https://github.com/datawhalechina/team-learning-rs/tree/master/DeepRecommendationModel

相关学习书籍推荐：《深度学习推荐系统》王喆

NFM Model

与FM（因式分解机）相似，NFM使用实值特征向量。给定一个稀疏向量x∈Rn作为输入，其中特征值为xi=0表示第i个特征不存在，NFM预估的目标为:

其中第一项和第二项是线性回归部分，与FM相似，FM模拟数据的全局偏差和特征权重。第三项f(x)是NFM的核心组成部分,用于建模特征交互。它是一个多层前馈神经网络。

在这里插入图片描述

首先输入就是离散化的特征，然后再进行embedding操作，获得每一个特征的向量表示。接着就到了Bi-interaction Pooling层，这里其实就是FM部分。FM的公式如下图所示：

在这里插入图片描述

去掉最外层的累加号，我们得到的是一个长度为K的向量，也就是embedding部分的长度。然后再对这个向量送入几层全连接层即可，最后输出ctr预估值。这就是NFM的整体思路。

和其他的DNN模型处理稀疏输入一样，Embedding将输入转换到低维度的稠密的嵌入空间中进行处理。这里做稍微不同的处理是，使用原始的特征值乘以Embedding vector，使得模型也可以处理real valued feature。

Bi是Bi-linear的缩写，这一层其实是一个pooling层操作，它把很多个向量转换成一个向量，形式化如下：

fbi的输入是整个的嵌入向量，xi ，xj是特征取值，vi， vj是特征对应的嵌入向量。中间的操作表示对应位置相乘。所以原始的嵌入向量任意两个都进行组合，对应位置相乘结果得到一个新向量；然后把这些新向量相加，就得到了Bi-Interaction的输出。这个输出只有一个向量。

这个跟其他的模型基本一样，堆积隐藏层以期来学习高阶组合特征。一般选用constant的效果要好一些。

最后一层隐藏层Zl到输出层最后预测结果形式化如下：

其中h是中间的网络参数。考虑到前面的各层隐藏层权重矩阵，f(x)形式化如下：

这里相比于FM其实多出的参数其实就是隐藏层的参数，所以说FM也可以看做是一个神经网络架构，就是去掉隐藏层的NFM。

1. NFM核心就是在NN中引入了Bilinear Interaction(Bi-Interaction) pooling操作。基于此，NN可以在low level就学习到包含更多信息的组合特征。

2. 通过deepen FM来学习高阶的非线性的组合特征。

3. NFM相比于上面提到的DNN模型，模型结构更浅、更简单(shallower structure)，但是性能更好，训练和调整参数更加容易。

所以，依旧是FM+DNN的组合套路，不同之处在于如何处理Embedding向量，这也是各个模型重点关注的地方。现在来看业界就如何用DNN来处理高维稀疏的数据并没有一个统一普适的方法，依旧在摸索中。