推荐系统之雅虎图文：Embedding-based News Recommendation for Millions of Users

前言

　　雅虎日本2017年发的他们的推荐系统paper，主要以Emebdding作为用户和文本新闻的表示方式，来让我们师夷长技以自强下。

亮点

　　主要就是在倒腾各种Embedding，用来做推荐。
　　1）用降噪自编码实现文章的 $embedding$ 。
　　2）用RNN学习用户行为的 $embedding$ 。

YaHoo日本的图文推荐处理流程

Identify $\longrightarrow$ 获取用户特征 $V_u$ 。
Matching $\longrightarrow$ 匹配候选新闻集合。
Ranking $\longrightarrow$ 对候选集排序。
De-duplication $\longrightarrow$ 根据新闻相关性去重。
Advertising $\longrightarrow$ 插入广告。

notice-1: 在上述1,2,4的地方用到了Embedding表示的用户和新闻。
notice-2: 在第2点上并没有说清楚是从所有新闻中匹配候选集，还是有个所有新闻的子集来做匹配。
notice-3: 在最终展示顺序上，以排序为基础，辅以额外的影响因素，比如新鲜度(hot)，相似新闻不近邻(diversity)等。

为什么Eebedding

1）协同过滤和低秩分解类方法的先天缺陷
　　不适应更新很快的系统，只消耗旧数据，无法对新数据产生足够快的响应。基于词的推荐，则容易受限于词自身的语义缺点，比如同义词的不同词容易推类似新闻。图文推荐系统的特点，不同于广告和视屏，图文新闻过期很快。
2）用户的行为历史的顺序及结构信息，没有被充分利用起来。
　　基于上述两点，分别用改进的降噪自编码对文章作表达，用RNN方法对用户作表达。来完成以下三点推荐要素：
　1. $\longrightarrow$ 理解文章内容。
　2. $\longrightarrow$ 理解用户喜好。
　3. $\longrightarrow$ 为个体用户选择新闻并排序。

Artical Embedding

　　基本模型是denoising autoencoder，对其加上弱监督学习作改进，以提高hiden-layer-embedding对差距的表达能力。

{\tilde{x}}_{n} \sim q ({\tilde{x}}_{n} | x_{n})

$\widetilde{x}_n \sim q(\widetilde{x}_n|x_n)$

h_{n} = f (W {\tilde{x}}_{n} + b) - f (b)

$h_n = f(W \widetilde{x}_n +b) -f(b)$

y_{n} = f (W^{'} h_{n} + b^{'})

$y_n = f(W'h_n + b')$

L_{T} (h_{0}, h_{1}, h_{2}) = l o g (1 + e^{h_{0}^{T} h_{2} - h_{0}^{T} h_{1}})

$L_T(h_0, h_1, h_2)=log(1+e^{h_0^Th_2 - h_0^T h_1})$

θ = \underset{W, W^{'}, b, b^{'}}{a r g m i n} \sum_{x_{0}, x_{1}, x_{2} \in T} \sum_{n = 0}^{2} L_{R} (y_{n}, x_{n}) + α L_{T} (h_{0}, h_{1}, h_{2})

$\theta = \underset{W,W',b,b'}{argmin} \sum_{x_0, x_1, x_2 \in T} \sum_{n=0}^2 L_R(y_n, x_n) + \alpha L_T(h_0, h_1, h_2)$

L_{R} (y_{n}, x_{n})

$L_R(y_n, x_n)$ 表示重构的误差，描述对

x

$x$ 本身的表示能力。

L_{T} (h_{0}, h_{1}, h_{2})

$L_T(h_0, h_1, h_2)$ 表示对相似对和不相似对的区分能力（弱监督部分）。

(x_{0}, x_{1}, x_{2}) \in X^{3}

$(x_0, x_1, x_2) \in X^3$ ，其中

x_{0} 和 x_{1}

$x_0和x_1$ 是相同策略（或者是相似的），

x_{0} 和 x_{2}

$x_0和x_2$ 是不同的策略。
在应用测试时，使用固定衰减输入而非随机衰减输入来计算hidden-layer的embedding值，如下：

\tilde{x} = (1 - p) x ⟶ h = f (W \tilde{x} + b) - f (b)

$\widetilde{x} = (1-p)x \longrightarrow h = f(W \widetilde{x} +b) -f(b)$
notice:

p

$p$ 是从哪里来的？
notice: 文中隐藏掉了

x

$x$ 的样子，很重要的部分但没对外公开。

User Embedding

这个最后用的是GRU(Gated Recurrent Unit)，也试了LSTM但效果不如GRU，更多详见。一个用户的浏览和点击交互历史日志如下所示：

两个非常经典的RNN结构如下图，左为LSTM，右为GRU。

在这个应用场景下，怎么利用历史行为来计算用户的embedding呢？这才是我们关心的，也是用户的embedding最核心的地方。我们认为当前的用户状态

u_{t}

$u_t$ 是该用户的上一状态

u_{t - 1}

$u_{t-1}$ 和浏览状态

a_{t}^{u}

$a_t^u$ 决定的

u_{t} = f (a_{t}^{u}, u_{t - 1})

$u_t=f(a_t^u, u_{t-1})$ ，在RNN里面这个函数就变成了

u_{t} = ϕ (W^{i n} a_{t}^{u} + W^{o u t} u_{t - 1} + b)

$u_t=\phi(W^{in}a_t^u + W^{out}u_{t-1} + b)$ 。
在GRU下，我们看下变成了什么样子的？

GRU的结构和对应函数关系如上图，那么在这里的应用场景下，对应的函数如下：
未完待续

思考

图文推荐系统的特点，不同于广告和视屏，图文新闻过期很快。Yahoo用的是24小时生命周期。
用户的ID-cookie和用户画像，都可以用来做召回。图文这边对cookie好像并没有使用。