盗用weka

绪论

1.2基本术语

学习任务大致分为两类：
- 监督学习：分类、回归
- 无监督学习：聚类
泛化：训练得到的模型适用于新样本的能力
机器学习领域最重要的国际学术会议是国际机器学习会议 (ICML)、国际神经信息处理系统会议 (NIPS)和国际学习理论会议 (COLT),重要的区域性会议主要有欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML); 最重要的国际学术期刊是 Journal of Machine Learning Research 和 Machine Learning. 人工智能领域的重要会议如 IJCAI、 AAAI 以及重要期刊如 Art侨c归1 Intelli- gence、 Journal of Art听cial Intelligence Reseαrch, 数据挖掘领域的重要会议如 KDD、 ICDM 以及重要期刊如 ACM Transactions on Knowledge Discovery fromDα归、 Dαtα Mining and Knowledge Discovery,计算机视觉与模式识别领域的重要会议如 CVPR 以及重要期刊如 IEEE Transactions on Pattem Analysis and Machine Intelligence, 神经网络领域的重要期刊如 Neural Com- putation、 IEEE Transaιtions on Neural Networks αηd Leαming 8ystems 等也经常发表机器学习方面的论文.

模型评估与选择

2.1经验误差与过拟合

过拟合：学习能力过于强大，把训练样本所包含的不太一般的特性都学到了
欠拟合：学习能力低下（可通过例如在决策树中扩展分支、在神经网络学习中增加训练轮数等）
选择泛化误差最小的那个模型来防止过拟合

2.2评估方法

使用测试集来测试学习器对新样本的判别能力。假设测试样本是从真实分布中独立同分布采样取得的。注意：测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集出现、未在训练过程中使用过。

留出法

“留出法” (hold-out)直接将数据集D划分为两个互斥的集合?其中一个集合作为训练集5,另一个作为测试集T,即D=BUT,5门T=正~.在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计.
保留类别比例的采样方式通常称为"分层采样"
常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试.

交叉验证法

交叉验证法先将数据集D划分为k个大小相似的互斥子集,即D=D1 U D2 U … U Dk,Di n Dj = ø (í! = j). 每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到.然后,每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k次训练和测试，最终返回的是这k个测试结果的均值显然,交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,为强调这一点,通常把交叉验证法称为"k折交叉验证"。k最常用的取值是10,此时称为10折交叉验证; 其他常用的k值有5、20等.

自助法

自助法：给定包含m个样本的数据集D,我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’,这就是自助采样的结果.显然,D中有一部分样本会在D’中多次出现,而另一部分样本不出现.样本在m次采样中始终不被采到的概率是(1 一 1/m) ^ m即通过自助来样,初始数据集D中约有36.8%的样本未出现在采样数据集D’中.于是我们可将D’用作训练集,D\D’用作测试集;这样,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有数据总量约1/3的、没在训练集中出现的样本用于测试.这样的测试结果,亦称"包外估计"
自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处. 然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差.因此,在初始数据量足够时,留出法和交叉验证法更常用一些.

调参与最终模型

计算开销和性能估计之间进行折中

2.3性能度量

回归任务最常用的性能度量是“均方误差”

错误率与精度

查准率、查全率与F1

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例、假正例、真反倒、假反例四种情形,令TP、 FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数.

真实情况	预测结果
真实情况	正例	反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

查准率P和查全率R：
- P = TP / (TP + FP)
- R = TP / (TP + FN)
F1度量 = 2 * P * R / (P + R) = 2 * TP / (样例总数 + TP - TN)
查全率和查准率重视不同的情况
- F lanmuda = (1 + lanmuda^2) * P * R / ((lanmuda^2 * P) + R)
- lanmuda > 1 时查全率影响更大
- lanmuda < 1 时查全率影响更大

ROC与AUC

ROC （曲线）是 “受试者工作特征”
- 纵坐标：“真正例率” TPR = TP / (TP + FN)
- 横坐标：“假正例率” FPR = FP / (TN + FP)

线性模型

3.1基本形式

线性模型 f(x) = w1 * x1 + w2 * x2 + …… + wn * xn + b
向量形式 f(x) = w^t * x + b

3.2线性回归

均方误差最小化

3.4 线性判别分析

简称LDA，线性学习方法

94页

周志华机器学习

绪论

1.2基本术语

模型评估与选择

2.1经验误差与过拟合

2.2评估方法

留出法

交叉验证法

自助法

调参与最终模型

2.3性能度量

错误率与精度

查准率、查全率与F1

ROC与AUC

线性模型

3.1基本形式

3.2线性回归

3.4 线性判别分析

猜你喜欢

周志华 机器学习

绪论

1.2基本术语

模型评估与选择

2.1经验误差与过拟合

2.2评估方法

留出法

交叉验证法

自助法

调参与最终模型

2.3性能度量

错误率与精度

查准率、查全率与F1

ROC与AUC

线性模型

3.1基本形式

3.2线性回归

3.4 线性判别分析

猜你喜欢

周志华机器学习