机器学习扫盲笔记

第一章：绪论

1：基础概念

数据集：100个西瓜样本：1个西瓜特征向量：颜色，大小，响度属性：颜色

样本（样例）：数据的特定实例，为xn，分为有标签样本和无标签样本，

有标签样本包含特征和标签，无标签包含特征，不包含标签

标签：要预测的事务，为y

特征：输入变量，为x

机器学习：机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。旨在准确的预测

机器学习的一般步骤：搜集数据，数据预处理，选择模型，训练模型，评估模型，参数微调，预测

样本属性的主要类型：连续性，二值离散，多值离散，混合类型

奥卡姆剃刀：选择简单的那个

没有免费的午餐定理（NFL定理）：无论学习算法a多聪明、学习算法b多笨拙，它们的期望性能都相同。

2：分类

有监督学习

分类：二分类为题（瓜栽还是不摘）多分类（市场上有哪些瓜）

回归：预测下年西瓜啥时间是最便宜的

无监督学习

聚类：大小

区别：有监督学习有老师教，无监督学习没有老师教，有监督学习通过已有的训练样本得到模型，在利用模型将所有输入映射为相应输出。无监督学习没有任何训练样本，而是直接对数据进行建模。聚类。

第二章：模型评估

随着训练样本的增加，平均训练误差会增大，平均测试误差会减小

1：评估方法

2：评估指标

准确率

错误率

查准率（P）

查全率（R）

调和均值F1

PR曲线：

比较集中曲线的好坏：

方法一：查全率相同，查准率高的好

方法二：比较面积

ROC曲线：

ROC曲线判断好坏：

越凸越好

AUC

CLL

3：比较检验

测试集的保留方法

留出法（部分数据用来训练，部分数据用来预测，三七分）

交叉验证法：K折交叉验证

自助法：

验证集：调参

性能度量：

均方误差

错误路与精度

查准率和查全率：（样本分布不均衡，使用错误率不准确了）

第三章：线性模型

1：线性回归

使用最小二乘法对w和b进行评估

2：广义线性回归

现实中很多问题是非线性的，将线性回归的预测值做一个非线性的函数变化去逼近真实值

联系函数为指数函数式，成为对数线性回归

3：逻辑斯蒂回归—二分类问题

4：多分类学习

第四章：支持向量机

1：概念

确定一个分类超平面，从而将不同的数据分割开

使用现成的或则拉格朗日乘子法

2：分类

线性可分支持向量机

线性支持向量机

非线性支持向量机

3：核函数

将非线性转化为线性问题

一般由经验给出

正定核——正定矩阵

多项式核函数

高斯核函数

第五章：神经网络

MP神经元模型

单层感知机

只拥有一层MP神经元

多层前馈神经网络

误差逆传播算法（BP）

BP面临的问题

1）结构学习问题

2）初始化问题

3）步长设置问题

4）权值与阈值的更新问题

5）过拟合问题

深层神经网络

第六章：决策树学习

根据某些特征的判别对数据进行分类

最佳划分的度量问题

不纯度量

增益率

C4.5的启发式方法

例：根据天气，温度等划分决策树

计算各信息增益，最大的是OutLook，根据OutLook划分

判断Sunny有2+和3-不是叶子节点，再划分，计算其他的信息增益，发现Humidity最大，

处理缺失属性问题

过拟合

预剪枝

后剪枝（实践中更直接）

第七章：贝叶斯

贝叶斯定理：

朴素贝叶斯定理：假设输入的不同特征之间是独立的。

应用：文本分类，垃圾邮件过滤，病人分类，拼音检查

极大似然估计MLE：模型已定，参数未知，

最大后验概率MAP：获得对实验数据中无法直接观察到的量的点估计。MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

因为MLE 只考虑训练数据拟合程度没有考虑先验知识，把错误点也加入模型中，导致过拟合。

基础知识

朴素贝叶斯分类器

条件独立

例：天气等

改进

1）处理算法：结构扩展

2）处理数据：

面向特征（特征选择，特征加权）

面向实例（实例选择，实例加权）

第八章：最近邻学习kNN

积极学习：有显式的训练过程，都是在训练阶段对样本进行学习处理，构建分类模型

消极学习(lazy learning)：没有显式训练过程，训练阶段只是把训练样本保存起来，建模工作

延迟到工作阶段才进行处理，如最近邻学习

近邻索引问题

几乎所有计算花费都在索引近邻上，使用最多的是通过计算待测样本与每一个训练样本之间的距离，然后基于距离排序，选择距离最短的k个训练样本作为待测赝本。

维度灾害问题

如果目标函数仅依赖于很多属性中的几个时，样本间的距离会被大量不相关的属性所支配，从而导致相关属性的值很接近的样本相距很远。

解决方案：属性加权，属性选择（加权为0和1）

领域大小问题

基于经验直接给出，基于数据自动学习

后验概率问题

计算效率问题

归纳偏置问题’

第八章：集成学习

构件并结合多个学习期来完成学习任务，有时又称多分类器系统。先产生一组个体学习器，再用某种策略将他们结合起来。

个体强依赖必须串行生成序列——Boosting

个体不强依赖可并行化——bagging和随机森林

Boosting

Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2.，如此重复进行，直到弱学习器数达到事先指定的数目T，最终将这T个弱学习器通过集合策略进行整合，得到最终的强学习器。

AdaBoost

AdaBoosting方式每次使用的是全部的样本，每轮训练改变样本的权重。下一轮训练的目标是找到一个函数f 来拟合上一轮的残差。当残差足够小或者达到设置的最大迭代次数则停止。Boosting会减小在上一轮训练正确的样本的权重，增大错误样本的权重。（对的残差小，错的残差大）分类器更加关注分错的样本点

GBDT

回归树，梯度上升决策树，核心在于累加所有树的结果，一个人是30岁，先用20岁去拟合，然后发现损失有10岁，再用6岁去拟合剩下的损失，发现差距还有4岁，继续迭代，拟合的岁数的误差就会越来越小，不断拟合残差

Bagging与随机森林（RF）

Bgging：在原始数据集中有放回的选取，均匀取样，

第九章：聚类

距离计算

明科夫斯基距离（曼哈顿距离和欧式距离）

K均值算法（kmeans）

学习向量量化

高斯混合聚类：采用概率模型来表达

基于密度的聚类

层次聚类

k-means：K是指所要聚的cluster的数量，means是指每一个cluster都有一个中心点（质心），这个质心是cluster中所有点的平均值，分别计算样本中每个点与K个质心的欧式距离，离哪个质心最近，这个点就被划到哪一类中。继续选出新的质心，如果新的质心与旧的质心的差距小于一定得阈值，则不再更新。

GMM（高斯混合模型）：所有的分布可以看做是多个高斯（正态）分布综合起来的结果。这样一来，任何分布都可以分成多个高斯分布来表示。通过样本找到K个高斯分布的期望和方差，那么K个高斯模型就确定了。在聚类的过程中，不会明确的指定一个样本属于哪一类，而是计算这个样本在某个分布中的可能性。

第十章：强化学习