数学公式
#第一章:绪论
数据集→示例(instance)/样本(sample)→属性(attribute)/特征(feature)
↓
一个属性为一维,n个属性构成n维属性空间/样本空间/输入空间,空间中每个点对应一个坐标向量, 把这个示例成为特征向量(feature vector)
训练过程中使用的数据称为“训练数据”,训练样本组成的集合 称为“训练集”,其为样本空间的一个采样
样例(example):拥有标记信息的示例。所有标记的集合称为“标记空间”或“输出空间”
预测任务:通过训练对训练集进行学习,建立一个从输入空间到输出空间的映射
预测的是离散值:分类
预测的是连续值:回归
聚类(clustering):将训练集中训练数据分为若干组,每组称为一个“簇(cluster)”,这些簇是自动形成的
归纳(induction):特殊到一般的泛化
演绎(deduction):一般到特殊的特化
版本空间(version space):存在着一个与训练集一致的"假设集合"即可能有多个假设与训练集一致,称之.
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
任何一个有效的机器学习算法必有其归纳偏好,采用"奥卡姆剃刀"原则(若有多个假设与观察一致,则选最简单的那个)引导算法确立"正确的"偏好 ↑
假设选择原则
第二章:模型评估与选择
精度=1-错误率
学习器的实际输出与样本的真实输出之间的差异称为"误差"
过拟合(overfitting):把训练样本自身的一些特点当作所有潜在样本都具有的一般性质,即"学的特征过多了".
欠拟合(underfitting):对训练样本的一般性质尚未学好,即学的特征过少了.
在决策树中扩展分支、在神经网络中增加训练轮数来克服欠拟合,而过拟合解决很麻烦,无法彻底避免
数据集划分
- 留出法(hold-out):直接将数据集D划分为两个互斥的集合作为训练集S和测试集T,采用"分层采样"保持数据分布的一致性.而且要采用多次划分求平均值的方法得出评估结果.
- 交叉验证法(cross validation):将数据集D划分为k个大小相似的互斥子集,每个子集通过分层抽样得到,每次用k-1个子集的并集作为训练集,剩下的那个子集作为测试集,这样可得k组训练/测试集,进行k次训练和测试,返回k个测试结果.同样需要多次划分
- 自助法(bootstrapping):以自助采样(亦称"可重复采样"或"有放回采样")为基础,有放回的从D中挑选一个样本放在D’中,重复m次,得到含m个样本的训练集D’,D-D’作为测试集."包外估计"数据集较小、难以划分时很有用,自助法产生的数据集改变了初始数据集的分布,引入了估计偏差.
回归任务最常用的性能度量是"均方误差"(mean squared error):
查准率(precision)、查全率(recall)与F1
P-R曲线
平衡点:查准率=查全率时的取值
F1是基于查准率与查全率的调和平均定义的:
F1度量的一般形式—— (其为加权调和平均),表达出对查准率/查全率的不同偏好
ROC与AUC
很多学习器是为测试样本产生一个实值或概率预测,将这个预测值与一个分类阈值(threshold)进行比较,大于则分为正类,否则为反类.
- ROC(Receiver Operating Characteristic):根据学习器的预测结果对样例排序,按此顺序逐个把样本作为正例进行预测(把分类阈值设为最小),每次计算"真正例率"、“假正例率”,以他们为纵、横轴作图
- ROC曲线下的面积,即AUC(Area Under ROC Curve)
排序损失 , AUC=1-
“规范化"是将不同变化范围的值映射到相同的固定范围中,常见的是[0,1],此时亦称"归一化”.
s.t. 是"subject to"的简写,使左边式子在右边条件满足时成立
算法的期望泛化误差(泛化错误率?)=偏差+方差+噪声即
偏差
: 期望输出与真是标记的差别
度量了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力
方差
: 使用样本数相同的不同训练集产生的方差
度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响
噪声
:
表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度
第三章 : 线性模型
线性回归
若属性值间存在"序"关系,可通过连续化将其转化为连续值,例如"身高"的"高","矮"可转化为{1.0 , 0.0},若不存在"序"关系,则转化为k维向量
arg min 就是使后面这个式子达到最小值时的x,t的取值。
欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
凸函数
解析解与数值解
解析解,又称为闭式解,是可以用解析表达式来表达的解。 在数学上,如果一个方程或者方程组存在的某些解,是由有限次常见运算的组合给出的形式,则称该方程存在解析解。二次方程的根就是一个解析解的典型例子。在低年级数学的教学当中,解析解也被称为公式解。当解析解不存在时,比如五次以及更高次的代数方程,则该方程只能用数值分析的方法求解近似值。大多数偏微分方程,尤其是非线性偏微分方程,都只有数值解。
数值解,是指给出一系列对应的自变量,采用数值方法求出的解。采用的方法有限元法、数值逼近、插值法。他人只能利用数值计算的结果,而不能随意给出自变量并求出计算值。
数值解是在一定条件下通过某种近似计算得出来的一个数值,能在给定的精度条件下满足方程.
解析解为方程的解析式(比如求根公式之类的),是方程的精确解,能在任意精度下满足方程.
对数线性回归
考虑单调可微函数g(·),令
这样得到的模型称为"广义线性模型",函数g(·)称为”联系函数“,显然,对数线性回归是广义线性模型在g(·)=ln(·)时的特例.
对数几率回归
对于二分类任务,y∈{0,1},而线性回归模型预测值为实值z,用"单位阶跃函数"将实值z转换为0/1值.
但该函数不连续,故用"对数几率函数"替代
, 用线性回归的预测结果去逼近真是标记的对数几率
几率(odds): , y为x作为正例的可能性,对数几率:
数值优化算法如梯度下降法,牛顿法可求解目标函数最优解
协方差其意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。
范数
(1) 0范数
=非零元素个数
(2) 1范数
$||\vec v||_1=∣v_1∣+∣v_2∣+…+∣v_n|$1范数可以用来表示曼哈顿距离,规定:只允许上下左右移动,不允许斜着移动,在这种情景下,1范数就可以很好的用来作为两点之间的距离的测度。
(3) 2范数
显然,2范数可以用来表示欧式距离
(4)无穷范数
无穷范数可以表示向量的最大元素。
线性判别分析(Linear Discriminant Analysis,LDA)
一种经典的线性学习方法,思想为:将训练样本投影到一条直线上,使得同类样本的投影点尽可能近,异类样本尽可能远;通过新样本投影点的位置来确定类别