9.1 Introduction
前面讲过的很多概率分布其实都是属于指数家族簇,比如高斯,伯努利,泊松,狄利克雷分布等。当然,要除掉均匀分布和学生 t 分布。我们可以用指数家族分布来表示 class-conditional density,由此建立广义线性模型(GLM, Generalized Linear Model)这个生成分类器。
9.2 The exponential family 指数家族
指数家族之所以重要,主要是因为下面几点,
- 指数家族是唯一的充分统计量是有限大小的分布家族
- 指数家族是唯一存在共轭先验的分布家族
- 指数家族在认为选定限制下作的假设最少的分布家族
- 指数家族是广义线性模型的核心内容
- 指数家族是变分推断(variational inference)的核心内容
9.2.1 Definition 定义
对于输入数据
里面的参数含义如下表,
参数 | 名字 | 作用 |
---|---|---|
|
自然参数(natural parameters) or 典范参数(canonical parameters) | 参数 |
|
充分统计量(sufficient statistics) | |
|
划分函数(partition function) | 归一化 |
|
对数划分函数(log partition function) or 积累函数(cumulant function) | 归一化 |
|
尺度常数(scaling constant) | 一般取 1 |
当
9.2.2 Examples
9.2.2.1 Bernoulli
回忆一下伯努利分布的表达式,有离散随机变量
若要写成指数家族的标准形式,有两种做法,第一种可以取
因此有另一种取法,令
9.2.2.2 Multimoulli 多努利
作为伯努利分布的推广,多努利模型的推导看起来会更清晰。先来回顾一下多努利模型。
假设有随机变量
为了方便,可以令
9.2.2.3 Univariate Gaussian
一元高斯分布也可以写成指数家族形式。
9.2.2.4 Non-examples
均匀分布和学生 T 分布就不是指数家族中的分布,然而为什么呢?还有没有别的分布家族呢?他们是不是各有自己的一派呢?
9.2.3 Log partition function
对 log partition function
有下面的结论,
9.2.4 MLE for the exponential family
根据 Pitman-Koopman-Darmois theorem,在某些条件下(under certain regularity conditions),指数家族分布是唯一具有有穷充分统计量(finite sufficient statistics)的家族分布。这里有穷的充分统计量指的是统计量和数据集大小无关。
对指数家族进行最大似然估计可以得到充分统计量,即
9.2.5 Bayes for the exponential family *
指数家族分布是唯一具有共轭先验的家族分布….
9.2.6 Maximum entropy derivation of the exponential family * 最大熵模型
当服从一些用户自定义的约束下,指数家族分布是对数据做的假设最少的分布。假设我们有许多的特征函数(feature function),均满足这样的约束,
9.3 Generalized linear models (GLMs) 广义线性模型
Linear or Logistic Regression 都算是广义线性模型的特例。这些模型的输出密度都是输入的线性组合后,经过一个非线性函数(如 sigmoid 函数)得到的。
9.3.1 Basics
举了 linear regression, binomial regression 和 poisson regression 的例子。
9.3.2 ML and MAP estimation
可以像将线性回归时那样,求解梯度向量和海森矩阵。
9.3.3 Bayesian inference 贝叶斯推断
GLMs 的贝叶斯推断,常用 MCMC,吉普斯采样(Gibbs sampling),高斯估计(Gaussian approximation),或者变分推断(variational inference).
9.4 Probit regression 概率回归
在
9.5 Multi-task learning
在分类和回归问题中,人们常常想把一个问题训练好的模型,应用在另一个数据较少的问题上,这个过程就叫做多任务学习(multi-task learning),或者叫迁移学习(transfer learning),或者叫 learning to learn. 这一小节主要讲怎么用层次贝叶斯模型来解决这一问题。
9.5.1 Hierarchical Bayes for multi-task learning
9.5.2 Application to personalized email spam filtering
9.5.3 Application to domain adaptation
9.5.4 Other kinds of prior
9.6 Generalized linear mixed models *
9.7 Learning to rank *
Learning to rank 问题,探讨的是如何将机器学习应用到搜索引擎的技术上去,正是这些年比较热的话题之一。搜索排序的话题属于 信息抽取(IR, Information Retrieval)领域,同样的问题在 协同过滤(collaborative filtering) 的领域也有应用。
考虑搜索引擎的工作流程:当用户在搜索引擎的前端,键入了一个请求
计算查询和文档之间的相关度有很多的方法,比如 tf-idf,语义匹配等;而衡量文档的重要程度,其中一个重要的标准就是 PageRank,通过计算网站链接的结构来衡量一个网站是否重要,比如假设一个网站被很多大网站链接了很多次,那么这个网站肯定也非常重要。
9.7.1 The pointwise approach
我们把所有影响排序的因素看做是特征,记作
既然是有监督问题,那么数据怎么获得呢?一种方法是大量标注数据,另一个途径是从搜索引擎的日志里抽取用户的点击结果。
缺点是啥没太看明白。。。
然而这种方法没有考虑每个文档在列表中的位置,最尾部的文档和最开头的文档的惩罚力度是一样的,这不是我们想要的。
9.7.2 The pairwise approach
相对于直接对所有的文档给出一个排序,我们两两比较两个文档的信心会更足一些。比如判断
9.7.3 The listwise approach
上面的方法,两两比较两个文档时,没有考虑整篇文档。现在用 Plackett-Luce 分布来描述一个文档排序的不确定性。若用
举个例子,三篇文档排序是
如果定义
9.7.4 Loss function for ranking 排名的损失函数
这一小节讲述了评价排序的一些标准和方法。
- Mean reciprocal rank (MRR),比如本来该排第一的那个排到了第5,那么给出就是 1/5
- Mean average precision (MAP),定义前
k 个的准确率为P@k(π)≜排序π里前k个里有几分相关k AP(π)≜∑kP@k(π)⋅Ik相关文档总数 y=(1,0,1,0,1) ,那么AP=13(11+23+35)≈0.76 - Normalized discounted cumulative gain (NDCG) 假如相关度是多层标签,就是有除了相关和不相关,还有有点相关等选项,那么可以选用这个标准。定义前
k 个的 discounted cumulative gain 为,DCG@k(r)=r1+∑i=2krilog2i ri 是第i 个的相关度。另一种定义是DCG@k(r)=∑i=1k2ri−1log2(1+i) - Rank Correlation 描述排序表
π 和相关度判断π∗ 之间的相关度(correlation),可以用 weighted Kendall’sτ statistics 来定义,τ(π,π∗)=∑u<vwuv[1+sgn(πu−πv)sgn(π∗u−π∗v)]2∑u<vwuv
这些损失函数可以用不同的方法来应用。贝叶斯会先用后验推断来拟合模型,频率派会最小化经验风险。交叉熵损失是一种常见的 surrogate loss function,而 weighted approximate-rank pairwise or WARP loss,提出可以模拟 precision@k loss,但是也不好算,还是要用 Monte Carlo sampling 和梯度下降的方法来做。