CTR预估：计算广告的应用(1)——理论

作者：[email protected] (github.com/shanyuwang)

概述

CTR预估（Click-through-rate estimation，点击率预估）是指利用机器学习算法预估被展现内容的点击概率，这是机器学习在工业界最终成熟、也是最广泛的应用之一。CTR预估作为关键技术在竞价广告、个性化feed等产品中发着中重要作用。工业界许多问题都可抽象成类似CTR预估的0-1分布问题，如购买预估（CVR预估）、转化预估（CPA预估）等等。所以研究CTR预估对于理解机器学习应用非常重要，本文以竞价广告为例系统产出CTR预估问题的理论（问题定义、模型算法、正则化技巧）、特征（语料处理、特征构造）和代码实践三大部分，涵盖了工业应用中的多数技术内容。

问题建模

CTR预估最早2007年由微软研究院学者[M. Richardson,07]对广告点击预估问题进行系统化建模，为了使广告系统总收入最大化，主流的广告引擎采用期望收入对广告排序，即E(revenue) = P(click) * bid，并使用广义二价(GSP)计费，即 $price_{i}=\frac{bid_{i+1}*P(click)_{i+1}^{\alpha}}{P(click)_{i}^{\alpha}}$ 。由此看来，点击率预估不仅要给出ad的点击偏序关系，还要给出用于计费、门槛过滤的绝对度量值。

从问题到模型

主流CTR预估模型有数十种，从模型结构上大体可分为两类流派：

a)复杂特征工程+简单模型，以大规模离散特征LR为代表，将知识存储到模型+特征两个地方；
b)简单特征工程+复杂模型，以GBDT、DNN为代表，将知识全部存储到模型中。

CTR预估也经历了LR、FM、FTRL、DNN等模型演变，无论哪种模型，模型设计的思路异曲同工。下面以Logistic Regression为例，具体建模方法如下：
1）在给定场景下，广告的点击与否是一个随机事件y∈{0,1}，记P{y=1|X}=h(X;W)，其中h(X;W)为特征向量X和点击事件y的关系函数。由于随机事件y只有点or不点两个取值，可设y服从伯努利分布，即y|X~Bernoulli(φ)，其中φ为广告的点击率。

注1：这里是将y作为离散随机变量，此时h(X;W)为分类模型，即用分类模型来建模广告点击的概率（换个思路也可称为对点击概率的log odd ratio做回归）。当然也可将点击率C作为连续随机变量，这时设 $C|X \sim N(C,σ^2)$ ，此时h(X;W)为回归模型，然而回归模型需要充分拟合各个的区间值，对样本的要求需求量更大，实际项目中很少这样使用。

注2：由于事件y产生依赖场景特征向量X，且不同的场景的点击概率φ不同。但不同场景下y与X可使用同一函数h(x;W)表示，h(X;W)也称之为假设空间，统计学理论认为由X可决定Y的分布。

2）而伯努利分布又是指数分布族的一个特例，指数分布族包含大多数的常见分布，如伯努利分布、正态分布、泊松分布等。指数分布族可写成 $P(y;\gamma）=b(y)exp( \gamma^T T(y) -A(\gamma))$ ，其中γ为分布的自然参数，函数b(y)称为底层观测值，函数T(x)称为充分统计量，函数A(γ)称为对数规则化。伯努利分布函数可写成 $P(y)=\phi^y (1-\phi)^{1-y}$ ，我们将伯努利分布写成指数分布族的形式：
$\begin{equation}\begin{split} P(y) &= \phi^y (1-\phi)^{1-y} \\ &=exp\{\ln{ \phi^y (1-\phi)^{1-y} }\} \\ &=exp\{ y \ln{ \phi} +(1-y) \ln{(1-\phi)} \} \\ &=exp\{ y \ln{ \phi} +\ln{(1-\phi)} - y \ln{(1-\phi)} \} \\ &=exp\{ y \ln{ \frac{\phi}{1-\phi} } +\ln{(1-\phi)} \} \end{split}\nonumber\end{equation}$

令b(y)=1、 $\gamma=\ln{\frac{\phi}{1-\phi}}$ 、T(y)=y、A(γ)= ln{1-φ}即可得到指数分布族的表达式。此时得到γ的反函数为 $\phi=\frac{1}{1+e^{-\gamma}}$ 。最终假设空间可写成的函数 $h(X;W)= \frac{1} {1+e^{-\gamma} }$ ，其中γ为关于X的函数。

3）再假设γ与X呈线性关系 $\gamma=W^TX$ ，可得到模型 $h(X;W)=\frac{1}{1+e^{- W^TX } }$ ，即逻辑回归模型。另外γ与X呈非线性时可考虑转为线性关系计算，如用二阶核函数（即sigmoid版的FM模型）、网络特征表示（将DNN最后一层看作X的高级表示）。需要说明的是，如果随机变量y在给定X下服从指数分布族并假设γ与X呈线性关系，此模型被称作广义线性模型GLM，逻辑回归、线性回归均是GLM的特例。在某些充分条件下，我们可推导出γ与X呈线性关系，下面我们分情况说明。

情况一：对于特征向量 $X=\{x_1,x_2,...,x_n\}$ ，如果特征xi在y确定下均相互独立，则有：
$\begin{equation}\begin{split} \gamma &= \ln{ \frac{\phi}{1-\phi} } \\ &=\ln{ \frac{ P\{y=1|X\} }{1-P\{y=1|X\}} } \\ &=\ln{ \frac{ P\{y=1|X\} }{P\{y=0|X\}} } \\ &=\ln{ \frac{ P\{X|y=1\}P\{y=1\}/(P\{X|y=1\}P\{y=1\}+P\{X|y=0\}P\{y=0\}) }{P\{X|y=0\}P\{y=0\}/(P\{X|y=1\}P\{y=1\}+P\{X|y=0\}P\{y=0\})} } \\ &=\ln{ \frac{ P\{X|y=1\}P\{y=1\} }{P\{X|y=0\}P\{y=0\} } } \\ &=\ln{ \prod_{i=0}^n{ \frac{ P\{x_i|y=1\}P\{y=1\} }{P\{x_i|y=0\}P\{y=0\} } }} \\ &=\sum_{i=0}^n{ \ln{ \frac{ P\{x_i|y=1\}P\{y=1\} }{P\{x_i|y=0\}P\{y=0\} } }} \end{split}\nonumber\end{equation}$

若特征子集 ${\bf x_i}=(x_{i_1},x_{i_2},...,x_{i_k}),k\in[1,n]$ 为某大特征的one-hot-encode离散表示，为了书写方便令 $P\{x_{i_j}=1|y=0\} = P0_{i_j}$ 、 $P\{x_{i_j}=1|y=1\} = P1_{i_j}$ 则 $P\{x_{i_j}|y=0\}=(P0_{i_j})^{x_{i_j}}(1-P0_{i_j})^{1-x_{i_j}} = ({\frac{P0_{i_j}}{1-P0_{i_j}}})^{x_{i_j}}(1-P0_{i_j})$ ，此时该特征子集可表示为：
$\begin{equation}\begin{split} &\sum_{j=0}^k{ \ln{ \frac{ P\{x_{i_j}|y=1\}P\{y=1\} }{P\{x_{i_j}|y=0\}P\{y=0\} }}} \\ &=\sum_{j=0}^k{ \ln{ \frac{(\frac{ P1_{i_j} }{ 1-P1_{i_j} })^{x_{i_j} }(1-P1_{i_j}) P\{y=1\} } {(\frac{ P0_{i_j} }{ 1-P0_{i_j} })^{x_{i_j} }(1-P0_{i_j}) P\{y=0\} } }} \\ &=\sum_{j=0}^k{ x_{i_j} \ln{ \frac{ P1_{i_j}(1-P0_{i_j})}{ P0_{i_j}(1-P1_{i_j})} } } + \sum_{j=0}^k{ \ln{ \frac{ (1-P1_{i_j}) P\{y=1\} }{ (1-P0_{i_j}) P\{y=0\} } } } \end{split}\nonumber\end{equation}$
此时 $(x_{i_1},x_{i_2},...,x_{i_k})$ 与γ呈线性关系。

若特征子集 ${\bf x_i}=(x_{i_1},x_{i_2},...x_{i_k}),k\in[1,n]$ 为连续值特征，且在y确定下服从高斯分布，设 $P\{{\bf x_i}|y=c\} \sim N({\bf \mu}c,{\bf \Sigma} c)$ 并且 ${\bf \Sigma} 1={\bf \Sigma} 0$ ，此时该特征子集可表示为：
$\begin{equation}\begin{split} &\ln{ \frac{ P\{{\bf x_i}|y=1\}P\{y=1\} }{P\{{\bf x_i}|y=0\}P\{y=0\} } } \\ &= \ln{ \frac {\frac{1}{\sqrt{2\pi}|{\bf \Sigma} 1|^{1/2} }exp\{ -\frac{1}{2}({\bf x_i}-{\bf \mu}1)^T{{\bf \Sigma} 1}^{-1} ({\bf x_i}-{\bf \mu}1) \} } { \frac{1}{\sqrt{2\pi}|{\bf \Sigma} 0|^{1/2} }exp\{ -\frac{1}{2} ({\bf x_i}-{\bf \mu}0)^T{{\bf \Sigma} 0}^{-1} ({\bf x_i}-{\bf \mu}0) \} } } \\ &= -\frac{1}{2}( ({\bf x_i}-{\bf \mu}1)^T{{\bf \Sigma} 1}^{-1} ({\bf x_i}-{\bf \mu}1)-({\bf x_i}-{\bf \mu}0)^T{{\bf \Sigma} 0}^{-1} ({\bf x_i}-{\bf \mu}0) )+ \ln{\frac{|{\bf \Sigma} 0|^{1/2}}{|{\bf \Sigma} 1|^{1/2}}} \\ &=-\frac{1}{2}{\bf x_i}^T({{\bf \Sigma}1}^{-1}-{{\bf \Sigma}0}^{-1}){\bf x_i} -\frac{1}{2}{\bf x_i}^T({{\bf \Sigma}1}^{-1}{\bf \mu}1-{{\bf \Sigma}0}^{-1}{\bf \mu}0) -\frac{1}{2}({\bf \mu}1^T{{\bf \Sigma}1}^{-1}-{\bf \mu}0^T{{\bf \Sigma}0}^{-1}){\bf x_i}\\ &-(\frac{1}{2}{\bf \mu}1^T{{\bf \Sigma}1}^{-1}{\bf \mu}1 -\frac{1}{2}{\bf \mu}0^T{{\bf \Sigma}0}^{-1}{\bf \mu}0 +\ln{\frac{|{\bf \Sigma} 0|^{1/2}}{|{\bf \Sigma} 1|^{1/2}}} ) \\ &=-\frac{1}{2}{\bf x_i}^T({{\bf \Sigma}1}^{-1}{\bf \mu}1-{{\bf \Sigma}0}^{-1}{\bf \mu}0) -\frac{1}{2}({\bf \mu}1^T{{\bf \Sigma}1}^{-1}-{\bf \mu}0^T{{\bf \Sigma}0}^{-1}){\bf x_i} + constant\\ &=-\frac{1}{2}{\bf x_i}^T{{\bf \Sigma}1}^{-1}({\bf \mu}1-{\bf \mu}0) -\frac{1}{2}({\bf \mu}1^T-{\bf \mu}0^T){{\bf \Sigma}1}^{-1}{\bf x_i} + constant \end{split}\nonumber\end{equation}$
此时 $(x_{i_1},x_{i_2},...,x_{i_k})$ 与γ呈线性关系。若 ${\bf \Sigma}1 \neq {\bf \Sigma}0$ 相关，则可增加 $k^2$ 个二次项特征 $(x_{i_1}x_{i_1},x_{i_1}x_{i_2},...,x_{i_k}x_{i_k})$ ，这时可将上述公式中的二次项 ${\bf x_i}^T({{\bf \Sigma}1}^{-1}-{{\bf \Sigma}0}^{-1}){\bf x_i}$ 转为近似线性关系(待验证)。

若特征不符合上述两种条件分布，多值离散特征、连续特征可粗暴one-hot离散化；当然若连续特征近似高斯分布，也可作数据变换为高斯分布。

情况二：对于特征向量X={x_1,x_2,…,x_n}，如果特征x_i间在y确定下不独立：
若特征子集 ${\bf x_i}=(x_{i_1},x_{i_2},...,x_{i_k}),{\bf x_j}=(x_{j_1},x_{j_2},...,x_{j_m})$ ，则构造新的二次项组合特征，共m+k个 $(x_{i_1}x_{j_1},x_{i_1}x_{j_2},...,x_{i_k}x_{j_m})$ ，用这个替代 ${\bf x_i},{\bf x_j}$ (待验证)。其他情况则可直接one-hot离散化。

此时，以独立one-hot离散特征为基础，我们得到了 $h(X;W)$ 关于x的模型假设 $h(X;W)=\frac{1}{1+e^{- W^TX } }$ ，并且该模型的输出值即为广告点击概率。

注1：当讨论离散变量时，P(x)指的为概率质量函数(probability mass function)，当讨论连续随机变量时，P(x)指的为概率密度函数(probability density functions)。离散特征与连续特征不可混合使用。

模型参数估计

在给定样本集合 $\mathscr{D}$ ，总体分布已知(y|X~Bernoulli(h(X;W))的情况下，我们要构造一个适当的统计量W‘( $\mathscr{D}$ )来作为未知参数W的近似值（即点估计问题）。常用构造估计量的方法有四种：矩估计法、最大似然估计法、最小二乘法、最大后验估计。对于单参数的指数分布族来说，矩估计法与最大似然估计等价(待验证)。我们以最大似然估计为例：
$\begin{equation}\begin{split} max\ \ln L(\mathscr{D};W) &=max \ln \prod_{i=0}^m{ P(y_i|X_i)} \\ &= max \ln \prod_{i=0}^m{\phi_i^{y_i}(1-\phi_i)^{1-y_i} } \\ &= max \sum_{i=0}^m{ \{y_i \ln \phi_i + (1-y_i)\ln(1-\phi_i) \} } \\ &= max \sum_{i=0}^m{ \{y_i \ln h(X_i;W) + (1-y_i)\ln(1-γh(X_i;W))\} } \\ &= min \frac{1}{m} \sum_{i=0}^m{- \{y_i \ln h(X_i;W) + (1-y_i)\ln(1-h(X_i;W)) \} } \\ &= min \ J(W) \end{split}\nonumber\end{equation}$

在伯努利分布下，我们只需要让上方损失函数J(W)最小即可，在这个例子中也被称为交叉熵损失函数。换句话说，如果假设y服从伯努利分布，利用最大似然估计方法得到即是交叉熵损失函数。在TF中为了防止值溢出，会对损失函数计算进行变换，将 $h(X;W)=1/(1+e^{-\gamma})$ 带入可得：
$\begin{equation}\begin{split} &-\{ y \ln h(\cdot) + (1-y)\ln(1-h(\cdot)) \}\\ &= y \ln \frac{1-h(\cdot)}{h(\cdot)} - \ln(1-h(\cdot)) \\ &= - y*\gamma - \ln \frac{e^{-\gamma}}{1+e^{-\gamma}} \\ &=\begin{cases} -y*\gamma + \gamma + \ln(1+e^{-\gamma}) , & \gamma \ge 0 \\[2ex] -y*\gamma + \ln{(1+e^{\gamma})}, & \gamma < 0 \end{cases} \\ &=\begin{cases} -y*\gamma + \gamma + \ln(1+e^{|\gamma|}) , & \gamma \ge 0 \\[2ex] -y*\gamma + 0 + \ln{(1+e^{-|\gamma|})}, & \gamma < 0 \end{cases} \\ &=-y*\gamma + max(\gamma,0) + \ln(1+e^{-|\gamma|}) \end{split}\nonumber\end{equation}$

~~这个损失函数带有不可微点，需要利用PGD方法进行迭代。~~
注1：最大似然估计对离群点不鲁棒，如果数据线性可分，最大似然估计会出现过拟合的现象，可增加正则项缓解。
注2：最大似然估计无法区分某个解优于另一个解，在实际应用中，哪个解被找到依赖优化算法选择和参数初始化方法。

模型参数求解

按照理论，我们对似然函数求导并使其等于0，得到规范方程，即可得到参数W的解析解(或称形式解)。除了很简单情况外，似然函数往往没有有限函数的解析解(如X不满秩/可逆、矩阵求逆精度过低、矩阵过大无法求解等)，需要用到数值方法求近似解，即优化算法。如参数梯度计算公式：
$\begin{equation}\begin{split} \frac{\partial J(W) } {\partial W_j} &= - \frac{1}{m}\sum_{i=0}^m{ \{y_i \frac{\partial \ln h(·)} {\partial W_j} + (1-y_i)\frac{\partial \ln(1-h(·)) } {\partial W_j} \} } \\ &= - \frac{1}{m}\sum_{i=0}^m{ \{y_i \frac{1}{h(·)}\frac{\partial h(·) } {\partial W_j} + (1-y_i)\frac{-1}{1-h(·)} \frac{\partial h(W) } {\partial W_j} \} } \\ &=- \frac{1}{m}\sum_{i=0}^m{ \{y_i \frac{1}{h(·)}{h(·)(1-h(·))}\frac{W^TX_i } {\partial W_j} + (1-y_i)\frac{-1}{1-h(·)} {h(·)(1-h(·))} \frac{\partial W^TX_i } {\partial W_j} \} } \\ &=- \frac{1}{m}\sum_{i=0}^m{ \{y_i (1-h(·))-(1-y_i) h(·) \} \frac{\partial W^TX_i } {\partial W_j} } \\ &=- \frac{1}{m}\sum_{i=0}^m{ \{y_i (1-h(·)) -(1-y_i) h(·) \}x_{ij} }\\ &=- \frac{1}{m}\sum_{i=0}^m{ \{y_i -h(·) \}x_{ij} } \end{split}\nonumber\end{equation}$
我们使用顺序学习算法，每次只需考虑一个数据点并对参数W增量更新。方法有：
minibatch-SGD、Momentum、adagrad、RMSProp、adam、OWLQN(L1)、L-BFGS等，现在比较常用的有自适应调参adam、minibath-SGD。minibath-SGD权重更新公式如下：
$w_{j}^{(t+1)} = w_{j}^{(t)} - \eta \frac{\partial J(W) } {\partial w_j}$ ，其中η为学习率。

增加正则项

我们用这个公式来统一表示范数： $Lp=(\sum|W|^p)^{1/p}$ 。L1正则项为L1范数(参数绝对值和, $L1=\|W\|_1=\sum|w_j|$ )、L2正则项为L2范数的平方和的一半(参数平方和，欧几里得范数的平方和 $L2=\frac{1}{2}\|W\|_2^2=\frac{1}{2}\sum w_j^2=\frac{1}{2}W^TW$ )、L0范数为非零值的个数。
注：P>=1时是凸函数，p<1时非凸函数。若模型为神经网络时正则项的范数应该替换为frobenius范数 $\|W\|_{Fp}=(\sum_i\sum_j|w_{ij}|^P)^{1/p}$ (矩阵范数)。

从贝叶斯派角度看L2正则项

模型参数估计采用的最大似然估计，其方法对离群点不鲁棒，经常出现过拟合问题。从贝叶斯派角度看，我们需要对W引入先验分布来约束其取值并使得W后验概率最大(MAP)。因为W的真实分布无法获取，我们需要给W指定一个假设分布来以便建模。如果对参数W引入0均值、协方差为 $\frac{1}{\lambda} I$ 高斯先验分布(I为单位矩阵)，即 $w_j \ i.i.d \sim N(0,\frac{1}{\lambda})$ ，则得到带有L2正则项的损失函数。以伯努利分布-最大似然估计为例：
$\begin{equation}\begin{split} max\ \ln L(Z;W) &=max \ln \prod_{i=0}^m{ P(y_i|X_i)P(W)} \\ &= max \ln \prod_{i=0}^m{\phi_i^{y_i}(1-\phi_i)^{1-y_i} {\frac{1}{\sqrt{2\pi}|{\frac{1}{\lambda} I}|^{1/2} }exp\{ -\frac{1}{2}W^T{({\frac{1}{\lambda} I})}^{-1} W \} } } \\ &= max \sum_{i=0}^m{ \{y_i \ln \phi_i + (1-y_i)\ln(1-\phi_i) -\frac{\lambda}{2}W^TW \} } \\ &= max \sum_{i=0}^m{ \{y_i \ln h(X_i;W) + (1-y_i)\ln(1-h(X_i;W))-\frac{\lambda}{2}W^TW \} } \\ &= min \frac{1}{m} \sum_{i=0}^m{ - \{y_i \ln h(X_i;W) + (1-y_i)\ln(1-h(X_i;W)) \}} +\frac{\lambda}{2}W^TW \\ &= \mathop{min} J(W) +\frac{\lambda}{2}W^TW \\ \end{split}\nonumber\end{equation}$
令 ${\widetilde J}(W)=J(W)+\frac{\lambda}{2}\|W\|_2^2$ ，在SGD算法中W迭代更新逻辑如下：
$\begin{equation}\begin{split} w_j^{(t+1)} &= w_j^{(t)} - \eta \frac{\partial {\widetilde J}(W) } {\partial w_j} \\ &= w_j^{(t)} - \eta \frac{\partial J(W) } {\partial w_j} - \eta \frac{\lambda}{2}\frac{\partial \|W\|_2^2 } {\partial w_j} \\ &= w_j^{(t)} - \eta \frac{\partial J(W) } {\partial w_j} - \eta \lambda w_j \\ &= (1-\eta \lambda)w_j^{(t)} - \eta \frac{\partial J(W) } {\partial w_j} \end{split}\nonumber\end{equation}$
其中 $\eta$ 为学习率，可见带有L2的损失函数求梯度后相当于先对之前的权重decay再更新weight，因此L2正则项也被称为权重衰减(weight decay)，从这个角度上看L2还可以加快模型的迭代收敛速度。

从贝叶斯派角度看L1正则项

如果对参数 $w_j$ 引入位置参数为0、尺度参数为1/λ的拉普拉斯先验分布，则得到带有L1正则项的损失函数：
$\begin{equation}\begin{split} max\ \ln L(Z;W) &=max \ln \prod_{i=0}^m{ P(y_i|X_i)P(W)} \\ &= max \ln \prod_{i=0}^m{\phi_i^{y_i}(1-\phi_i)^{1-y_i} \prod_{j=0}^n{\frac{\lambda}{2}exp\{ -\lambda|w_j|\} } } \\ &= max \sum_{i=0}^m{ \{y_i \ln \phi_i + (1-y_i)\ln(1-\phi_i) -\lambda\|W\|_1 \} } \\ &= max \sum_{i=0}^m{ \{y_i \ln h(X_i;W) + (1-y_i)\ln(1-h(X_i;W))-\lambda\|W\|_1 \} } \\ &= min \frac{1}{m} \sum_{i=0}^m{ - \{y_i \ln h(X_i;W) + (1-y_i)\ln(1-h(X_i;W)) \} }+\lambda \|W\|_1 \\ &= min \frac{1}{m} \sum_{i=0}^m{ J(W) }+\lambda \|W\|_1 \\ \end{split}\nonumber\end{equation}$
此时损失函数仍为凸函数但在坐标轴上不可微，我们需使用凸优化中的近端梯度下降算法PGD(Proximal Gradient Descent)求解。对于凸函数h(x)，我们引入近似算子(Proximal Operator)：
${\bf prox}_h(x) = \mathop{argmin}_\limits{z}(h(z)+\frac{1}{2}\|z-x\|_2^2)$
当 $h(x)=\gamma\|x\|_1$ 时，优化目标变为LASSO问题，此时近似算子也称为软阈值算子(soft threshold Operator）:
$\begin{equation}\begin{split} {\bf prox}_{h}(x) &= \mathop{argmin}_\limits{z}(\gamma\|z\|_1+\frac{1}{2}\|z-x\|_2^2) \\ &=\begin{cases} x_i - \gamma ,& x_i > \gamma \\[2ex] 0,& |x_i| \le \gamma \\[2ex] x_i+\gamma,&x_i < \gamma \\[2ex] \end{cases} \\ &=sign(x)max\{|x|-\gamma,0\} \end{split}\nonumber\end{equation}$
其中 $\gamma \ge 0$ 。借助于软阈值算子，带有L1损失函数的近似迭代方法(PGD)为：
$\begin{equation}\begin{split} w_j^{(t+1)} &= {\bf prox}_{h,\eta} ( w_j^{(t)} - \eta\nabla_{w_j} J(W) )\\ &=sign(w_j^{(t)} - \eta\nabla_{w_j} J(W))max\{|w_j^{(t)} - \eta\nabla_{w_j} J(W)|-\eta\lambda,0\} \end{split}\nonumber\end{equation}$
此时完成整个L1损失函数的求解的迭代步骤。优化方法中的梯度下降算法中的每一步迭代相当于在 $W^{(t)}$ 的邻域对损失函数求极值，后面会证明PGD是对W邻域内求极值，即逐步最小化迭代。我们先推导软阈值的求解过程。

次梯度

由于 $\|x\|_1$ 不可导，其 $\|x\|={\bf 0}$ 时梯度也称为次梯度。次梯度定义：对于在p维欧式空间中的凸开子集U上定义的实值函数 $f:U\Rightarrow\it{R}$ ，一个p维向量v成为f在一点 $x_0 \in U$ 处的次梯度，如果对任意 $x \in U$ 满足
$\begin{equation}\begin{split} f(x)- f(x_0) \le {\bf v} \cdot (x-x_0) \end{split}\nonumber\end{equation}$
且由在点x0处的所有次梯度组成的集合称为x0的次微分，即为 $\partial f(x_0)$ 。只有凸函数才有次梯度的概念，针对一元函数f(x)=|x|，在x=0处的次微分是[-1,1]这个区间(集合），即：
$\begin{equation}\begin{split} {\partial |x|} &=\begin{cases} 1 , &x > 0 \\[2ex] -1, &x < 0 \\[2ex] [-1,1],&x = 0 \\[2ex] \end{cases} \end{split}\nonumber\end{equation}$

软阈值算子的求解

软阈值算子中的函数为凸函数，使函数值最小的z可能在极值点也可能在不可微点(z=0)。当 $z_i \neq 0$ 时，我们对软阈值算子中的函数F(z)进行求导，令其等于0，
$\begin{equation}\begin{split} \frac{\partial F(z)}{\partial z_i}&= \frac{\partial (\gamma\|z\|_1+\frac{1}{2}\|z-x\|_2^2)}{\partial z_i} \\ &= z_i-x_i + \gamma{\partial |z_i|}=0 \\ &z_i + \gamma{\partial |z_i|} = x_i \\ &sign(z_i)|z_i| + sign(z_i)\gamma = x_i \\ &sign(z_i)(|z_i| + \gamma) = x_i \\ \end{split}\nonumber\end{equation}$
其中sign(z)为符号函数。可见，只有zi与xi同号时等式才成立，F(z)才有极值。由于zi和xi同号，所以sign(zi)=sign(xi)，极值点为：
$\begin{equation}\begin{split} &z_i + \gamma{\partial |z_i|} = x_i \\ &z_i + \gamma sign(x_i) = x_i \\ z_i &= sign(x_i)|x_i|- \gamma sign(x_i) \\ &=sign(x_i)(|x_i| - \gamma)\\ &=\begin{cases} x_i-\gamma,&x_i-\gamma > 0 \ and\ z_i > 0\\[2ex] x_i+\gamma,&-1(-x_i-\gamma) < 0 \ and\ z_i < 0\\[2ex] Nan,&other\\[2ex] \end{cases} \\ &=\begin{cases} x_i-\gamma,&x_i>\gamma \ and\ z_i > 0\\[2ex] x_i+\gamma,&x_i<-\gamma \ and\ z_i < 0\\[2ex] Nan,& other\\[2ex] \end{cases} \end{split}\nonumber\end{equation}$
为了使软阈值算子的中的函数值最小，我们还要和zi=0点、函数另一侧比较大小，当函数值全局最小时才为软阈值算子所求的zi值。若 $x_i>\gamma$ ，当zi<=0 时函数 $F(z_i)=\frac{1}{2}(z_i-x_i)^2-\gamma z_i$ 单调递增：
$\begin{equation}\begin{split} F(z_i^-)&=\gamma|z_i|+\frac{1}{2}(z_i-x_i)^2 \\ &=\gamma|z_i|+\frac{1}{2}(|z_i|+x_i)^2 \\ &\ge \gamma|0|+\frac{1}{2}(|0|+x_i)^2 \\ &> \gamma(x_i-\gamma) + \frac{1}{2}( (x_i - \gamma) - x_i)^2\\ &=F(x_i-\gamma) \end{split}\nonumber\end{equation}$
所以 $x_i>\gamma$ 时，使F(z)最小值的点为 $z_i=x_i-\gamma$ 。
同理若 $x_i<-\gamma$ 当z_i >=0 时函数 $F(z_i)=\frac{1}{2}(z_i-x_i)^2+\gamma z_i$ 单调递增:
$\begin{equation}\begin{split} F(z_i^+)&=\gamma|z_i|+\frac{1}{2}(z_i-x_i)^2 \\ &=\gamma|z_i|+\frac{1}{2}(|z_i|+|x_i|)^2 \\ &\ge \gamma|0|+\frac{1}{2}(|0|+|x_i|)^2 \\ &> -\gamma(x_i+\gamma) + \frac{1}{2}( (x_i + \gamma) - x_i)^2 \\ &=F(x_i+\gamma) \end{split}\nonumber\end{equation}$
所以 $x_i<-\gamma$ 时，使F(z)最小值的点为 $z_i=x_i+\gamma$ 。
若 $|x_i|<\gamma$ ,当zi > 0和zi<0时函数均单调递增，所以最小值点在zi=0处取得。
$\begin{equation}\begin{split} F(z_i^+)&=\frac{1}{2}(z_i-x_i)^2+\gamma z_i \\ &= \frac{1}{2}(z_i+\gamma-x_i)^2+\frac{1}{2}x_i^2 - \frac{1}{2}(\gamma-x_i)^2\\ &\ge \frac{1}{2}(\gamma-x_i)^2+\frac{1}{2}x_i^2 - \frac{1}{2}(\gamma-x_i)^2= F(0) \\ F(z_i^-)&=\frac{1}{2}(z_i-x_i)^2-\gamma z_i \\ &= \frac{1}{2}(z_i-\gamma-x_i)^2+\frac{1}{2}x_i^2 - \frac{1}{2}(\gamma+x_i)^2\\ &\ge \frac{1}{2}(-\gamma-x_i)^2+\frac{1}{2}x_i^2 - \frac{1}{2}(\gamma+x_i)^2 = F(0) \end{split}\nonumber\end{equation}$

综上所述，使得近似算子中函数最小的z值为：
$\begin{equation}\begin{split} {\bf prox}_{h}(x) &= \mathop{argmin}_\limits{z}(\gamma\|z\|_1+\frac{1}{2}\|z-x\|_2^2) \\ &=\begin{cases} x_i-\gamma,&x_i>\gamma \\[2ex] x_i+\gamma,&x_i<-\gamma \\[2ex] 0,& |x_i| \le \gamma \\[2ex] \end{cases} \\ &=\begin{cases} sign(x_i)|x_i|-sign(x_i)\gamma,&x_i>\gamma \\[2ex] sign(x_i)|x_i|-sign(x_i)\gamma,&x_i<-\gamma \\[2ex] 0,& |x_i| \le \gamma \\[2ex] \end{cases} \\ &=\begin{cases} sign(x_i)(|x_i|-\gamma),&|x_i|>\gamma \\[2ex] 0,& |x_i| \le \gamma \\[2ex] \end{cases} \\ &=sign(x_i)max\{|x_i|-\gamma,0\} \end{split}\nonumber\end{equation}$

其中 $\gamma > 0$ 。

PGD与SGD的关系

PGD、SGD均为一阶优化算法，基于一阶泰勒来近似J(W)（牛顿法基于二阶泰勒近似J(W)）。首先来看无正则项的梯度下降算法，每步迭代相当于对J(W)在 $w_j^{(t)}$ 邻域内最小化：
$\begin{equation}\begin{split} w_j^{(t+1)} &= w_j^{(t)} - \eta\nabla_{w_j} J(W) \\ &=\mathop{argmin}_\limits{w_j} \{\eta w_j \nabla_{w_j} J(W) + \frac{1}{2} (w_j - w_j^{(t)})^2 \}\\ &=\mathop{argmin}_\limits{w_j} J(W^{(t)})+ w_j\nabla_{w_j} J(W)+ \frac{1}{2\eta} (w_j - w_j^{(t)})^2 \\ &\simeq \mathop{argmin}_\limits{w_j} J(W^{(t)})+ w_j\nabla_{w_j} J(W)+ \frac{\nabla_{w_j}^2 J(W)}{2} (w_j - w_j^{(t)})^2\\ &=\mathop{argmin}_\limits{w_j} J(W)\\ \end{split}\nonumber\end{equation}$
其中，添加的 $J(W^{(t)})$ 与wj最小化无关，这里的二阶泰勒近似使用了L-Lipschitz条件(上界)和凸函数二次导数为正(下界)，后面将详细证明。我们可得出梯度下降算法相当于对J(W)在 $w_j^{(t)}$ 邻域的最小化。那么PGD算法则是对J(W)+L1在 $w_j^{(t)}$ 邻域的最小化，令 $\gamma = \lambda\eta$ ，推导细节如下:
$\begin{equation}\begin{split} w_j^{(t+1)} &= \mathop{argmin}_\limits{w_j} \gamma\|w_j\|_1+\frac{1}{2}\|w_j - w_j^{(t)} + \eta\nabla_{w_j} J(W) \|_2^2 \\ &= \mathop{argmin}_\limits{w_j} \lambda\eta\|w_j\|_1+ \frac{1}{2}\|\eta\nabla_{w_j} J(W)\|_2^2 +\eta\nabla_{w_j} J(W)(w_j - w_j^{(t)}) + \frac{1}{2}\|w_j - w_j^{(t)}\|_2^2 \\ &= \mathop{argmin}_\limits{w_j} \lambda\|w_j\|_1+ \frac{1}{2}\|\nabla_{w_j} J(W)\|_2^2 +\nabla_{w_j} J(W)(w_j - w_j^{(t)} ) + \frac{1}{2\eta}\|w_j - w_j^{(t)}\|_2^2 \\ &= \mathop{argmin}_\limits{w_j}\lambda\|w_j\|_1+ J(W^{(t)}) +\nabla_{w_j} J(W)(w_j - w_j^{(t)} ) + \frac{1}{2\eta}\|w_j - w_j^{(t)}\|_2^2 \\ &\simeq \mathop{argmin}_\limits{w_j} \lambda\|w_j\|_1+ J(W) \end{split}\nonumber\end{equation}$
其中 $\|\eta\nabla_{w_j} J(W)\|_2^2,J(W^{(t)})$ 与wj最小化无关。更进一步，LASSO问题可泛化为任何带有L1的凸优化问题。下面我们证明下二阶泰勒近似成立，J(W)带有拉格朗日余项的泰勒展开为：
$\begin{equation}\begin{split} J(W) &= J(W^{(t)})+ \nabla J(W)(W-W^{(t)})+ \frac{1}{2} (W-W^{(t)})^T\nabla^2 J(\xi)(W-W^{(t)})\\ &\ge J(W^{(t)})+ \nabla J(W)(W-W^{(t)}), \quad \xi \in (W,W^{(t)}) \end{split}\nonumber\end{equation}$
因为损失函数为凸函数，函数的二阶偏导数>=0，所以Heissan矩阵 $\nabla_{w_j}^2 J(W)$ 为半正定矩阵，凸函数含有二次下界。如果函数 $\nabla^2 J(W)$ 满足李普希茨L-Lipschitz条件，其中常量用L表示，则有：
$\begin{equation}\begin{split} &\|\nabla J(W) - \nabla J(W')\| \le L \|W-W'\| \quad\forall W,W' \\ &\frac{\|\nabla J(W) - \nabla J(W')\|}{\|W-W'\|} =\nabla^2 J(W)\le L \quad \forall W,W' \\ J(W) &= J(W^{(t)})+ \nabla J(W)(W-W^{(t)})+ \frac{1}{2} (W-W^{(t)})^T\nabla^2 J(\xi)(W-W^{(t)})\\ & \le J(W^{(t)})+ \nabla J(W)(W-W^{(t)})+ \frac{L}{2} \|W-W^{(t)}\|_2^2 \end{split}\nonumber\end{equation}$
因此J(W)有上界，取 $\eta \in [0,\frac{1}{L}]$ 即得到二阶泰勒近似等式，证毕。

从优化理论角度看L2正则项

从优化理论的角度来看，正则项是以模型偏差的增加换取方差的减少，即通过加约束在解的邻域搜索替代解。在未加正则项前，如果损失函数有二次项(如MSE来拟合线性回归模型，损失函数一般都有二次项，数值计算中大多展开到二次项），且最优解为W*。对W*邻域进行泰勒展开可得J(W)的近似值:
$\begin{equation}\begin{split} {\hat J}(W) \simeq J(W^*) + \nabla J(W^*)(W-W^*) + \frac{1}{2}(W-W^*)^TH(W-W^*) \end{split}\nonumber\end{equation}$
其中H为W的hessian矩阵 $\nabla^2 J(W)$ ，由于W*为最优解所以其 $\nabla J(W^*)$ 即Jacobian矩阵为0。此时对J^(W)最小化(求导并置0），得到梯度为：
$\begin{equation}\begin{split} \nabla_W {\hat J}(W) &= \nabla\{J(W^*) + \nabla J(W^*)(W-W^*) + \frac{1}{2}(W-W^*)^TH(W-W^*)\} \\ &=\nabla\{J(W^*) + \frac{1}{2}(W-W^*)^TH(W-W^*)\} \\ &=\nabla\{\frac{1}{2}(W-W^*)^TH(W-W^*)\} \\ &=H(W-W^*)=0 \\ {\hat W}&=H^{-1}HW^* \end{split}\nonumber\end{equation}$
若对其增加L2正则项后，则 ${\widetilde J}(W)$ 为：
$\begin{equation}\begin{split} {\widetilde J}(W) &= {\hat J}(W) + \frac{1}{2}\lambda W^TW \\ \nabla _W {\widetilde J}(W) &= \nabla\{J(W^*) + \nabla J(W^*)(W-W^*) + \frac{1}{2}(W-W^*)^TH(W-W^*) + \frac{1}{2}\lambda W^TW \} \\ &=H(W-W^*) + \lambda W = 0\\ &(H+\lambda I) W = HW^* \\ &{\widetilde W} = (H+\lambda I)^{-1}HW^* \end{split}\nonumber\end{equation}$
因为损失函数为凸函数，H为半正定矩阵(定义：对实对称矩阵H，非0向量X都有 $X^THX \ge 0$ ；多元函数Hessian半正定相当于二阶导非负，因此凸函数Hessian半正定，否则 $J(\hat W)<=J(W^*)$ ，W*非极小值点)。因此H也为实对称矩阵(定义：特征根都为实数且转置等于本身，W连续则H为对称矩阵)可以分解为一个特征值对角阵Λ和一组特征向量的标准正交基Q(Q的每个正交基向量 $P^TP=0,|P|=1$ ，正交矩阵 $QQ^T=QQ^{-1}=I$ )。上面的公式可展开为：
$\begin{equation}\begin{split} {\widetilde W} &= (H+\lambda I)^{-}HW^* \\ &=(Q\Lambda Q^T+\lambda I)^{-1}Q\Lambda Q^TW^*\\ &=(Q(\Lambda+\lambda I)Q^T)^{-1}Q\Lambda Q^TW^*\\ &=(Q^T)^{-1}(\Lambda+\lambda I)^{-1}Q^{-1}Q\Lambda Q^TW^*\\ &=Q(\Lambda+\lambda I)^{-1}\Lambda Q^TW^*\\ &=Q({\bf diag}(\lambda_1+\lambda,\lambda_2+\lambda,...\lambda_k+\lambda,...))^{-1}\Lambda Q^TW^*\\ &=Q{\bf diag}(\frac{1}{\lambda_1+\lambda},\frac{1}{\lambda_2+\lambda},...\frac{1}{\lambda_k+\lambda},...)\Lambda Q^TW^*\\ &=Q{\bf diag}(\frac{1}{\lambda_1}\frac{\lambda_1}{\lambda_1+\lambda},\frac{1}{\lambda_2}\frac{\lambda_2}{\lambda_2+\lambda},...\frac{1}{\lambda_k}\frac{\lambda_k}{\lambda_k+\lambda},...)\Lambda Q^TW^*\\ &=Q{\bf diag}(\frac{\lambda_1}{\lambda_1+\lambda},\frac{\lambda_2}{\lambda_2+\lambda},...\frac{\lambda_k}{\lambda_k+\lambda},...)Q^TW^*\\ \end{split}\nonumber\end{equation}$
其中λk为特征值，λ为正则的超参系数。由此可见，L2正则相当于在特征向量定义的轴上使W*的每个参数向0方向收缩(线性收缩)，缩放因子为 $\frac{\lambda_k}{\lambda_k+\lambda}$ ，即L2会以 $\frac{\lambda_k}{\lambda_k+\lambda}$ 缩放与特征向量H对齐的W*的分量。W沿着H的特征值的方向较大(λi>>λ)正则化影响较小(显著降低损失函数的方向)，反之λi<<λ的向量则会收缩接近0(无助于降低损失函数的方向)。

可以MSE线性回归为例子，解析解由 $W^*=(X^TX)^{-1}X^Ty$ 变为 $W^*=(X^TX+\lambda I)^{-1}X^Ty$ ，”L2可感知具有较高方差的输入x，因此与输出目标的协方差较小(相对增加方差)的特征的权重将会收缩”(待验证)。

从病态条件、λ强凸角度来看L2正则项。
在优化理论中有两大难题：局部极值点、病态条件(ill-condition)。病态条件是指解析解不唯一、输入X的噪声波动使得参数W有较大的值变化。衡量方法为条件数(condition number) $K(A)=\|A\|*\|A^{-1}\|$ 。条件数相当于随输入X变化而导致输出Y变化的倍率，倍率越大输出Y变化越大、稳定性越差。以MSE线性回归为例， $X^TX$ 条件数很大的时候， $X^TX$ 很可能不满秩、也就是不可逆，方程组会得到无穷多个解，即解线性方程组会在数值上不稳定。加入L2后，则改为 $(X^TX+λI)$ 这个满秩矩阵求逆，会提升解的稳定性。
加入L2正则后会将损失函数变为λ强凸函数(λ>0越大，凸性越强)，可使损失函数有较精准的下界，从而提升收敛速度。

总之，加入L2正则后，模型学习到的权重W会尽可能的小，进而使得模型尽量简单，从而过拟合风险变小（奥卡姆剃刀原理）。总结起来，L2正则防止过拟合、求解的稳定性、加快收敛速度。

从优化理论角度看L1正则项

我们再来看L1正则项。L0范数代表参数非0的个数，可用来衡量稀疏化的程度。但L0范数是NP-hard问题，无法求解。L1是L0的最优凸近似。换句话说，L1的不可微点位于坐标轴，而不可微点也是取得极值的点，可使大量参数权重为0。

L1的稀疏化特型具有很多优点，如实现特征选择降低特征量、提高模型解释性、加快模型的计算速度、压缩模型存储等。

增加正则项的缺点：可能导致模型欠拟合。

总结

LR模型不仅在理论上具有较好的完备性，而且在工程上模型实现简单、容易大规模并行求解；在应用上线性模型容易调参、可解释性强。LR模型在工业界应用的十分广泛。

其他补充内容

好多blog的内容东拼西凑、公式错误，统计学习方法书中的公式也缺乏严谨性。深入学习要从经典书籍入手，如PRML、deep learning、机器学习(周志华）。

正则项解释

正则项的作用，可以从几个角度去解释: • 通过偏差方差分解去解释• PAC-learning泛化界解释• Bayes先验解释，把正则当成先验

过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

sigmoid函数与自然参数

φ与γ的反函数推导过程：
$\begin{equation}\begin{split} &\ln{ \frac{\phi}{1-\phi} }=\gamma \\ &\ln{ \frac{1-\phi}{\phi} }=-\gamma \\ &\frac{1-\phi}{\phi}=e^{-\gamma} \\ &\frac{1}{\phi}=1+e^{-\gamma} \\ &\phi=\frac{1} {1+e^{-\gamma}} \\ &P\{y=1|X\}=\phi= \frac{1} {1+e^{-\gamma}} \end{split}\nonumber\end{equation}$

常见LR梯度计算方法

$\begin{equation}\begin{split} \frac{\partial J(W) } {\partial W_j} &= \frac{1}{m} \sum_{i=0}^m{ \frac{\partial \{-y*\gamma + max(\gamma,0) + \ln(1+e^{|\gamma|})\}}{\partial W_j} }\\ &= \frac{1}{m} \sum_{i=0}^m{ \frac{\partial \{-y*W^TX_i + max(W^TX_i,0) + \ln(1+e^{-|W^TX_i|})\}}{\partial W_j} } \\ &=\begin{cases} \frac{1}{m} \sum_{i=0}^m{\{ -y*x_i + x_i+ (\frac{1}{1+e^{- |W^TX_i|}} -1)x_i \}} ,& W^TX >= 0 \\[2ex] \frac{1}{m} \sum_{i=0}^m{\{ -y*x_i +(1-\frac{1}{1+e^{- |W^TX_i|}} )x_i \}} ,& W^TX < 0 \end{cases} \end{split}\nonumber\end{equation}$
（此公式未考虑次梯度问题，待验证）

sigmoid函数的导数为：
$\begin{equation}\begin{split} \sigma'(x) &= (\frac{1}{1+e^{-x}})' \\ &=\frac{e^{-x}}{(1+e^{-x})^2}\\ &=\frac{1}{1+e^{-x}} (1-\frac{1}{1+e^{-x}}) \\ &= \sigma(x)(1-\sigma(x)) \end{split}\nonumber\end{equation}$

minibath-SGD更新算法如下：
$w_{i}^{(t+1)} = w_{i}^{(t+1)} - \gamma \frac{1}{m_k}\sum_{i=1}^{m_k} { \{y_i -h(·)\}x_{ij} }$
注：值得注意的是LR的梯度更新函数与线性回归的公式相似，只不过函数h不同。

关于过拟合的理解

什么是过拟合？过拟合是指训练误差逐渐变小而测试误差逐渐变大，导致模型泛化能力过差。对于模型训练来说，只能看到训练数据集而无法从测试集中学习。这时需要将过拟合的信号加入到模型中，我们假设越简单的模型越不容易过拟合，即奥卡姆剃刀原理：模型参数越少、越趋0，则学习到的模型结构化风险越小，即过拟合风险越小。

参考链接

K. Bartz, V. Murthi, S. Sebastian, “Logistic Regression and Collaborative Filtering for Sponsored Search Term Recom- mendation”, In Proceedings of the Second Workshop on Sponsored Search Auctions, 2006.

M. Richardson, E. Dominowska, and R. Ragno, “Predicting clicks: estimating the click-through rate for new ads,” in Proceedings of the 16th International World Wide Web Conference (WWW ‘07), pp. 521–530, May 2007.

【机器学习算法系列之三】简述多种降维算法 http://chenrudan.github.io/blog/2016/04/01/dimensionalityreduction.html

机器学习中的数学(4)-线性判别分析（LDA）, 主成分分析(PCA)http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html

多维高斯分布是如何由一维发展而来的？https://www.zhihu.com/question/36339816

【重要】为什么LR可以用来做CTR预估？https://www.zhihu.com/question/23652394

点击率预估综述http://blog.csdn.net/wuxiaosi808/article/details/77985656

TensorFlow四种Cross Entropy算法实现和应用http://geek.csdn.net/news/detail/126833

Andrew NG机器学习课程笔记系列之——机器学习之逻辑回归（Logistic Regression）http://blog.csdn.net/mydear_11000/article/details/50865094

回归、分类与聚类：三大方向剖解机器学习算法的优缺点 https://www.jiqizhixin.com/articles/2017-05-20-3

从神经网络视角看均方误差与交叉熵作为损失函数时的共同点http://www.cnblogs.com/dengdan890730/p/5545616.html

指数族分布 https://en.wikipedia.org/wiki/Exponential_family

多元高斯分布 https://zh.wikipedia.org/wiki/%E5%A4%9A%E5%85%83%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

Binary Logistic Regression
https://onlinecourses.science.psu.edu/stat504/node/150