机器学习（一）基本概念

一、基本概念：

数据集（data set）是记录数据的集合，每条记录是关于一个或对象的描述，称之为一个示例（instance）,反应事件或者对象

的某一方面的特性称之为属性（attribute）或者特征（feature），其值称之为属性值（attribute value），由不同属性张成的空

间称之为属性空间（attribute space），在属性空间上的每一个点对应一个坐标向量，称之为特征向量（feature vector）；

一般的：D={X1,X2,....,Xm}称为m个示例的数据集，对于每一个Xi={xi1,xi2,.....xid}表示有d个属性的示例；

从大量数据学得模型的过程称之为“学习（study）”或“训练（train）”，学习过程中所使用的的数据集合称之为训练集，每一个

样本称之为训练样本。

通常的问题有两类：分类问题，研究问题是离散的（单分类问题和多分类问题）；回归问题，研究的问题是连续的；

在学习得到模型之后，使用其进行“预测”的过程称之为测试，被预测的样本称之为预测样本（testing sample）；

学习任务可以分为（三种）：监督学习、无监督学习、半监督学习；

错误率：错误样本占样本总数的比率（error rate），a为错误样本个数，m为样本总数，则错误率为a/m；

（特殊的：1-a/m称之为精度（accuracy），即精度=1-错误率）

误差：实际值与预测值之间的差值；

过拟合：把训练样本中的特点当做了潜在样本所具有的一般特性，导致模型泛化性下降的现象；（学的过精，学习能力过强）

欠拟合：不能反映训练样本所具有的一般性质的现象；（学的不精，学习能力低下）

模型的评估方法：使用测试集来测试模型对新样本的判别能力，要求新的测试集尽量与训练集保持互斥；

常用方法：1）留出法：对数据集进行划分，将其划分为两个互斥的集合一个做训练集一个做测试集；

（注：使用此方法的时候，要保证训练集中数据分布的一致性，即采用分层抽样的方式划分数据。而且不

能只是采用一种划分方式，要采取多种分类方式，分别计算出每组情况的精度，以这些精度的平均值为结果）

2）交叉验证法：将数据集划分为k个大小相似的互斥子集，每一组数据均保证数据分布的一致性，每次

采用k-1个集合的并集作为训练集，余下的1个作为测试集，这样一共可以获得k组训练&测试集合，以这k

组数据的平均值作为结果。（注：此方法的稳定性与真实性取决于k值的大小，当样本过大时会导致模型

计算开销过大。）

3）自助法：对于给定m个样本的数据集合D，对其进行采样所产生的数据集为D‘，每次从D中挑选一个

样本加入到D‘中去，然后再将此样本放回初始集合D中去，使得此样本在下一次采样时仍有可能被取到，

将此过程重复m次，就获得了包含m个样本的数据集合D’，可以知道D中的部分样本在D’中一定会多次出

现，而也会有一部分不出现在D’中。样本不会被取到的概率为1/e，用D’为训练集构造模型，用D/D'作为

测试集来验证模型的正确性；（注：适用于数据集较小，且难以有效划分训练集/数据集）

模型的性能度量：采用所有(预测值-实际值)^2的和的平均值进行度量；（通过方差进行度量）

对于二分类问题，根据真实类别和预测类别可以划分为（真正例TP、假正例NP，真反例TN，假反例FN）

对于这四个参数满足：TP+NP+TN+FN=样本总数；

真实情况	预测结果
真实情况	正例	反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

查准率（准确率）P：TP/（TP+FP）

查全率（召回率）R：TP/（TP+FN）（注通常情况下，查准率和查全率成反比）

举个例子：好瓜与坏瓜的差准率&查全率，对于我们预测为好瓜的个数为TP+FP，其查准率为TP/（TP+FP），

对于所有好瓜中有多少被查出，其差准率为TP/（TP+FN），即查准率是看我们预测结果为真中有多少数据是准确的

（在这里就是被预测为好瓜的个数中到底有多少为好瓜），查全率是看我们的实际数据为真中有多少被预测出来的

（贼这里就是实际为好瓜中有多少被选出）；

再举个例子：丰田公司造出的一批汽车，只有检验（预测）通过的才能出厂，则最后出厂的个数为TP+FP辆，在这

一批车辆中实际合格车辆个数为TP辆，则差准率为TP/（TP+FP）。在这一批实际合格车辆中（TP+FN）中有TP辆

允许出厂则查全率为TP/（TP+FN）;（查准率即预测的结果有多少是对的，查全率正确的结果有多少被预测到了）

通过查准率和查全率构造的图像称之为P-R图像，面积越大的曲线（模型）性能越好。

（在P-R图像中，查全率=查准率的点称之为平衡点）

这里记查准率为P，查全率为F：F1=2PR/(P+R)；化简整理得出2TP/(样本总数+TP-TN)

）梦想之深邃（

发布了79 篇原创文章 · 获赞 81 · 访问量 5736

私信关注

机器学习（一）基本概念

一、基本概念：

猜你喜欢