MSRA2018的xDeepFM(CIN)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/smartcat2010/article/details/102758809

xDeepFM:名副其实的 ”Deep” Factorization Machine

自动构造输入向量的“高阶”特征组合;可惜工业界实际效果一般比不过Wide&Deep和DeepFM;时间复杂度高是痛点;容易过拟合(可对特征做离散化,加dropout来解决)

基本框架依然基于标准的Embedding&MLP,其中Linear、Plain DNN分别类似Wide和Deep部分, CIN 部分是创新。

输入有m个field, embedding维度为D,CIN的第k层使用上一层的H_{k-1}个D维向量,和输入的m个D维向量,Element-wise相乘,得到H_{k-1}*m个D维向量(下图a),用一个H_{k-1}*m的矩阵来“卷积”,得到一个D维结果向量(下图b,一个Feature map),H_{k}个这样的矩阵,得到H_{k}个D维向量,作为第k层的输出(下图b中的所有Feature map);每一层把H_{k}个D维向量进行sum-pooling得到H_{k}个数值,所有层的数值们contact起来,得到一个向量(上图c最上面的一排黄色圆圈),和Linear和PlainDNN的结果再contact成一个向量,进行LR;

Compressed Interaction Network(CIN)就是这么来的,即把每层Compress成一个数;

1. 每层通过sum pooling对vector的元素加和输出,这么做的意义或合理性?可以设想,如果CIN只有1层, 只有m个vector,即H_{1}=m, 且加和的权重矩阵恒等于1,即W=1,那么sum pooling的输出结果,就是一系列的两两向量内积之和,即标准的FM(不考虑一阶与偏置)

2. 除了第1层,中间层的这种基于vector高阶组合有什么物理意义?回顾FM,虽然是二阶的,但可以扩展到多阶,例如考虑三阶FM,是对三个嵌入向量作Hadamard乘再对得到的vector作sum,CIN基于vector-wise的高阶组合再作sum pooling与之是类似的,这也是模型名字 “eXtreme Deep Factorization Machine (xDeepFM) ”的由来。

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/102758809
cin