MSRA2018的xDeepFM(CIN)

本文链接： https://blog.csdn.net/smartcat2010/article/details/102758809

xDeepFM：名副其实的 ”Deep” Factorization Machine

自动构造输入向量的“高阶”特征组合；可惜工业界实际效果一般比不过Wide&Deep和DeepFM；时间复杂度高是痛点；容易过拟合（可对特征做离散化，加dropout来解决）

基本框架依然基于标准的Embedding&MLP，其中Linear、Plain DNN分别类似Wide和Deep部分， CIN 部分是创新。

输入有m个field, embedding维度为D，CIN的第k层使用上一层的 $H_{k-1}$ 个D维向量，和输入的m个D维向量，Element-wise相乘，得到 $H_{k-1}$ *m个D维向量（下图a），用一个 $H_{k-1}$ *m的矩阵来“卷积”，得到一个D维结果向量(下图b,一个Feature map)， $H_{k}$ 个这样的矩阵，得到 $H_{k}$ 个D维向量，作为第k层的输出(下图b中的所有Feature map)；每一层把 $H_{k}$ 个D维向量进行sum-pooling得到 $H_{k}$ 个数值，所有层的数值们contact起来，得到一个向量（上图c最上面的一排黄色圆圈），和Linear和PlainDNN的结果再contact成一个向量，进行LR;

Compressed Interaction Network（CIN）就是这么来的，即把每层Compress成一个数；

1. 每层通过sum pooling对vector的元素加和输出，这么做的意义或合理性？可以设想，如果CIN只有1层，只有m个vector，即 $H_{1}=m$ , 且加和的权重矩阵恒等于1，即W=1，那么sum pooling的输出结果，就是一系列的两两向量内积之和，即标准的FM（不考虑一阶与偏置）

2. 除了第1层，中间层的这种基于vector高阶组合有什么物理意义？回顾FM，虽然是二阶的，但可以扩展到多阶，例如考虑三阶FM，是对三个嵌入向量作Hadamard乘再对得到的vector作sum，CIN基于vector-wise的高阶组合再作sum pooling与之是类似的，这也是模型名字 “eXtreme Deep Factorization Machine (xDeepFM) ”的由来。

MSRA2018的xDeepFM(CIN)

猜你喜欢