Factorization Machine（FM）1是现代推荐系统的基础算法之一。本文介绍FM的模型思想、计算与优化方法。

FM模型

问题

输入： $n$ 维数据 $\bf{x}$ 。
预测：标量 $y$

举例
- 回归： $\bf x$ 的元素和 $y$ 都为实数
- 二类分类： $\bf x$ 的元素为实数， $y$ 为 $\pm1$
- 排序： $\textbf x =(x^a,x^b)$ 为有序对， $y$ 为 $\pm1$

在实际问题中， $\bf x$ 往往非常稀疏： $\bf x$ 中非零元素个数远远小于 $n$ 。

举例
一个电影推荐系统，系统中有 $n_1$ 个用户，有 $n_2$ 部电影。
系统中的每一条记录包含如下信息：用户编号，时间，电影编号，打分。
想要设计一个系统，预测用户某时刻对某一部电影的评分。

对于每一条记录，按照如下方式将其转化为 $(\textbf x,y)$ 对：

- 内容维度说明

$\textbf x$ 1-hot编码的用户编号 $n_1$ 用户多，此部分稀疏

1-hot编码的电影编号 $n_2$ 电影多，此部分稀疏

0-1标记用户已经看过的电影，归一化到和为一 $n_2$ 大部分用户只看过很少电影，此部分稀疏

时间 1

y 评分 1

-	内容	维度	说明
$\textbf x$	1-hot编码的用户编号	$n_1$	用户多，此部分稀疏
	1-hot编码的电影编号	$n_2$	电影多，此部分稀疏
	0-1标记用户已经看过的电影，归一化到和为一	$n_2$	大部分用户只看过很少电影，此部分稀疏
	时间	1
y	评分	1

稀疏数据的挑战

一个预测模型可以有不同的“度”(degree)，度越大，对 $\bf x$ 元素之间的相互作用考虑的越多。

$d=1$ 时，是线性模型：

y (x) = \sum i = 1 n w i x i

$y(\textbf x)=\sum_{i=1}^nw_ix_i$

d=2 $d=2$ 时，考虑元素对之间的关系：

y (x) = \sum i = 1 n w 1 i x i + \sum i = 1 n \sum j = i + 1 n w 2 i j x i x j

$y(\textbf x)=\sum_{i=1}^nw^1_ix_i+\sum_{i=1}^n\sum_{j=i+1}^nw^2_{ij}x_ix_j$

注意第二项，下标j的循环从i+1开始。

$d=3$ 时，考虑三元组之间的关系：

y (x) = \sum i = 1 n w 1 i x i + \sum i = 1 n \sum j = i + 1 n w 2 i j x i x j + \sum i = 1 n \sum j = i + 1 n \sum k = j + 1 n w 3 i j k x i x j x k

$y(\textbf x)=\sum_{i=1}^nw^1_ix_i+\sum_{i=1}^n\sum_{j=i+1}^nw^2_{ij}x_ix_j+\sum_{i=1}^n\sum_{j=i+1}^n \sum_{k=j+1}^nw^3_{ijk}x_ix_jx_k$

模型中参数总量为 $O(n^d)$ 。比较而言，训练数据本身数量不足（记录不多），且非常稀疏，很容易过拟合。

FM的解决方案

FM使用分解（factorization）的方法解决这个问题。

以 $d=2$ 为例，令：

w i j = < v i, v j > = \sum p = 1 r v i p v j p

$w_{ij}=<\textbf v_i, \textbf v_j>=\sum_{p=1}^rv_{ip}v_{jp}$

类似地， $d=3$ 时：

w i j k = < v i, v j, v k > = \sum p = 1 r v i p v j p v k p

$w_{ijk}=<\textbf v_i, \textbf v_j,\textbf v_k>=\sum_{p=1}^rv_{ip}v_{jp}v_{kp}$

其中， $<*,*>$ 表示向量的对位相乘之和。向量长度 $r<<n$ 。

可以从以下两个角度考察FM模型的物理意义

参数总量从 $O(n^d)$ 减少到 $O(rnd)$ 。 $r$ 越大参数越多，模型越精细； $r$ 越小，泛化力越强。
分解削弱了高阶参数之间的独立性： $w_{ij}$ 和 $w_{ik}$ 通过 $\bf v_i$ 关联。 $\bf v_i$ 维度 $r$ 越高， $\bf v_i$ 对 $<\textbf v_i,\textbf v_j>$ 的决定性，高阶参数之间独立性越强，模型越精细。

对于实际问题，选用较小的 $r$ 即可克服系数数据问题，同时获得较好预测结果。

计算与求解

FM模型的计算和求解都非常快。

计算

以 $d=2$ 为例，在计算 $y(x)$ 时，只需考虑计算量最大的二元项：

二 元 项 = \sum i = 1 n \sum j = i + 1 n (x i x j < v i, v j >)

$二元项=\sum_{i=1}^n \sum_{j=i+1}^n\left(x_ix_j<\textbf v_i, \textbf v_j>\right)$

可以首先把 $x_i$ （标量）和对应的参数向量 $\textbf v_i$ （长度为 $r$ ）相乘，并记录下来：

u i = x i \cdot v i

$\textbf u_i=x_i\cdot \textbf v_i$
对于

n $n$ 个元素，共需要：

n⋅r $n\cdot r$ 次乘法。

二 元 项 = \sum i = 1 n \sum j = i + 1 n < u i, u j > = \sum p = 1 r ⎛ ⎝ \sum i = 1 n \sum j = i + 1 n u i p u j p ⎞ ⎠

$二元项=\sum_{i=1}^n \sum_{j=i+1}^n<\textbf u_i, \textbf u_j>=\sum_{p=1}^r \left( \sum_{i=1}^n \sum_{j=i+1}^n u_{ip}u_{jp}\right)$

灵感

$(a + b + c) 2 = a 2 + b 2 + c 2 + 2 a b + 2 a c + 2 b c$ $(a+b+c)^2=a^2+b^2+c^2+2ab+2ac+2bc$

左边只需要1次乘法，而右边需要6次乘法：把二次项凑成和的平方可以节约计算。

把上式的求和项统一范围，便于计算：

二 元 项 = 1 2 \sum p = 1 r ⎛ ⎝ \sum i = 1 n \sum j = 1 n u i p u j p - \sum i = 1 n u 2 i p ⎞ ⎠

$二元项=\frac{1}{2}\sum_{p=1}^r\left(\sum_{i=1}^n \sum_{j=1}^n u_{ip}u_{jp} - \sum_{i=1}^nu_{ip}^2\right)$

= 1 2 \sum p = 1 r ⎛ ⎝ (\sum i = 1 n u i p) 2 - \sum i = 1 n u 2 i p ⎞ ⎠

$=\frac{1}{2}\sum_{p=1}^r\left( \left(\sum_{i=1}^nu_{ip}\right)^2- \sum_{i=1}^nu_{ip}^2 \right)$

括号内，两部分计算量均 $O(n)$ 。整体计算量为 $O(nr)$

结论：

FM是个线性模型。其计算量相对于变量维度 $n$ ，以及模型度 $r$ 均为线性。

求解

FM模型的参数可以使用SGD方法方便地求解。

预测值对一元参数的导数非常直接：

\partial y ( x ) \partial w 1 i = x i

$\frac{\partial y(x)}{\partial w^1_i}=x_i$

时间复杂度为 $O(1)$ 。

预测值对于二元参数的导数：

\partial y ( x ) \partial v i p = x i \cdot \partial y ( x ) \partial u i p = x i \cdot ⎛ ⎝ \sum j = 1 n u j p - u i p ⎞ ⎠

$\frac{\partial y(x)}{\partial v_{ip}}=x_i\cdot \frac{\partial y(x)}{\partial u_{ip}}=x_i\cdot \left( \sum_{j=1}^nu_{jp}-u_{ip}\right)$

其中 $\sum_{j=1}^nu_{jp}$ 和当前参数 $x_i$ 无关，可以提前统一计算。故此部分时间复杂度同样为 $O(1)$ 。

对于全部参数，求解梯度的时间复杂度为 $O(rnd)$ 。同样为线性。

Rendle, Steffen. “Factorization Machines.” IEEE International Conference on Data Mining IEEE Computer Society, 2010:995-1000. ↩

【推荐系统】Factorization Machine

FM模型

问题

稀疏数据的挑战

FM的解决方案

计算与求解

计算

求解

猜你喜欢