LDA模型

LDA(Latent Dirichlet Allocation)模型于03年发表在Journal of Machine Learning Research，三位作者乃当今当之无愧的机器学习大牛。身边很多学者因为其复杂的数学演算而对其望而生畏，而本文将对该模型进行抽丝剥茧，直奔主题，将其中最核心的idea和技术展现出来。
LDA模型又称为主题模型，对文档进行建模，学习出潜在的主题分布。假设一篇文档中包含 $N$ 个单词，记为 $\textbf{w}=\{w_n\}_{n=1}^N$ ，其中 $w_n$ 为该文档中第 $n$ 个单词。在LDA模型中，单词 $w_n$ 用单位基向量(unit-basis vector)表示，即我们事先会定义一个包含 $V$ 个典型单词的单词库(语料库)，则 $w_n$ 为一个 $V$ 维向量，其对应位置 $v$ 上元素 $w_n^v=1$ ，其它元素为0。很显然，单词 $w_n$ 应该服从多元伯努利分布。LDA假设文档中每一个单词 $w_n$ 对应一个主题 $z_n$ ，文档 $\textbf{w}$ 对应主题 $\textbf{z}$ 。由于文档中有多个主题，因此，LDA最核心的思想即单词服从一个混合的伯努利分布：某一单词 $w_n$ 在给定第 $k$ 个主题 $z_{nk}$ 下服从参数为 $\beta_k$ 的伯努利分布。下面列举其中关键的分布：

$p(w_n|z_n,\beta)=\prod\limits_kp(w_n|\beta_k)^{z_{nk}}$ ，此为单词的混合伯努利分布(便于理解，对应混合的高斯分布，即 $x$ 在给定类别 $k$ 下服从参数为 $(\mu_k,\Sigma_k)$ 的高斯分布)。其中， $p(w_n|\beta_k)=\prod\limits_v\beta_{kv}^{w_n^v}$ ，多元伯努利分布。显然， $z_n$ 为一个 $K$ 维向量，包含 $K$ 个主题， $\beta$ 为一个 $K\times V$ 的二维矩阵，行向量为第 $k$ 个伯努利分布的参数。
同理 $z_n$ 也为一个 $K$ 维的单位基向量，对应元素为1的值即为相应单词 $w_n$ 的主题。因此， $p(z_n|\theta)=\prod\limits_k\theta_k^{z_{nk}}$ ， $\theta$ 为伯努利分布参数，一个 $K$ 维的向量。
根据共轭先验的性质， $p(\theta|\alpha)=Dir(\theta|\alpha)$ ，即 $\theta$ 服从参数为 $\alpha$ 的狄利克雷分布。

我们可以知道 $\textbf{z}$ 和 $\theta$ 为隐变量， $\alpha$ 和 $\beta$ 为模型的参数。下面是整个模型的概率图表示，通过该图能很清晰的明白整个模型的建模过程。
这里写图片描述
我们能轻易写出变量 $\textbf{w}$ , $\textbf{z}$ 和 $\theta$ 的联合概率分布，其中 $\textbf{z}$ 和 $\theta$ 为隐变量：

p (w, z, θ | α, β) = p (θ | α) p (w | z, β) p (z | θ) = p (θ | α) \prod n p (w n | z n, β) p (z n | θ)

$\begin{array}{c} p(\textbf{w},\textbf{z},\theta|\alpha,\beta)=p(\theta|\alpha)p(\textbf{w}|\textbf{z},\beta)p(\textbf{z}|\theta) \\ =p(\theta|\alpha)\prod_np(w_n|z_n,\beta)p(z_n|\theta) \end{array}$
一般而言，由于隐变量的存在，参数的估计采用 EM算法。然而，在EM算法中，我们需要计算隐变量(

z $\textbf{z}$ 和

θ $\theta$ )的后验分布：

p (z, θ | w, α, β) = p ( w , z , θ | α , β ) p ( w | α , β )

$p(\textbf{z},\theta|\textbf{w},\alpha,\beta)=\frac{p(\textbf{w},\textbf{z},\theta|\alpha,\beta)}{p(\textbf{w}|\alpha,\beta)}$
简单分析上式，分母

p(w|α,β) $p(\textbf{w}|\alpha,\beta)$ 由于需要对联合概率分布进行积分而无法计算。因此，文中采用变分的思想对模型进行参数估计，即用简单的分布

q(z,θ) $q(\textbf{z},\theta)$ 来逼近后验分布

p(z,θ|w) $p(\textbf{z},\theta|\textbf{w})$ ，如下图
这里写图片描述

q (z, θ) = q (θ | γ) \prod n q (z n | ϕ n)

$q(\textbf{z},\theta)=q(\theta|\gamma)\prod_nq(z_n|\phi_n)$
其中

q(θ|γ) $q(\theta|\gamma)$ 为服从参数为

γ $\gamma$ 的狄利克雷分布；而

q(zn|ϕn) $q(z_n|\phi_n)$ 为服从参数为

ϕn $\phi_n$ 的多元伯努利分布。那么有了近似的后验分布，根据EM算法的思想，我们就可以最大化对数似然函数(

lnp(w|α,β) $\ln p(\textbf{w}|\alpha,\beta)$ )的下界：

m a x γ, {ϕ n} N n = 1, β, α E q ln p ( w , z , θ | α , β ) q ( z , θ )

$\mathop{max}_{\gamma,\{\phi_n\}_{n=1}^N,\beta,\alpha}E_q\ln\frac{p(\textbf{w},\textbf{z},\theta|\alpha,\beta)}{q(\textbf{z},\theta)}$
那么剩下的就是交替优化的思想来估计相应参数

γ,{ϕn}Nn=1,β,α $\gamma,\{\phi_n\}_{n=1}^N,\beta,\alpha$ 。具体为：

固定参数 $\beta,\alpha$ ，优化参数 $\gamma,\{\phi_n\}_{n=1}^N$ ：
$m a x γ, {ϕ n} N n = 1 E q ln p (w, z, θ | α, β) - E q ln q (z, θ) m a x γ, {ϕ n} N n = 1 E q ln p (θ | α) + E q ln p (z | θ) + E q ln p (w | z, β) - E q ln q (θ) - E q ln q (z)$ $\begin{array}{c} \mathop{max}_{\gamma,\{\phi_n\}_{n=1}^N}E_q\ln p(\textbf{w},\textbf{z},\theta|\alpha,\beta)-E_q\ln{q(\textbf{z},\theta)}\\ \mathop{max}_{\gamma,\{\phi_n\}_{n=1}^N}E_q\ln p(\theta|\alpha)+E_q\ln p(\textbf{z}|\theta)+E_q\ln p(\textbf{w}|\textbf{z},\beta)-E_q\ln{q(\theta)}-E_q\ln{q(\textbf{z})} \end{array}$
下面的计算就很简单了，代入相应的分布的表达式，并对对应的 $\textbf{z},\theta$ 在近似的 $q(z_n|\phi_n),q(\theta)$ 分布下求期望。最后采用常规的优化算法求解 $\gamma,\{\phi_n\}_{n=1}^N$ 。
固定参数 $\gamma,\{\phi_n\}_{n=1}^N$ ，优化模型参数 $\beta,\alpha$ ，此乃EM算法的M步：
$m a x β, α E q ln p (w, z, θ | α, β) m a x β, α E q ln p (θ | α) + E q ln p (z | θ) + E q ln p (w | z, β)$ $\mathop{max}_{\beta,\alpha}E_q\ln p(\textbf{w},\textbf{z},\theta|\alpha,\beta)\\ \mathop{max}_{\beta,\alpha}E_q\ln p(\theta|\alpha)+E_q\ln p(\textbf{z}|\theta)+E_q\ln p(\textbf{w}|\textbf{z},\beta)$
同理代入相应表达式并求期望，最后用常规优化算法求解 $\beta,\alpha$ 。

整个算法流程基于EM算法，后验分布的近似采用了变分的思想，因此称为变分EM算法，也称为平均场。通过上面的分析，事实上LDA模型也很好理解。有了模型参数，我们就能得到文档的主题分布，即得到了文档的高层语义信息。

猜你喜欢