机器学习(一)基本概念

一、基本概念:

数据集(data set)是记录数据的集合,每条记录是关于一个或对象的描述,称之为一个示例(instance),反应事件或者对象

的某一方面的特性称之为属性(attribute)或者特征(feature),其值称之为属性值(attribute value),由不同属性张成的空

间称之为属性空间(attribute space),在属性空间上的每一个点对应一个坐标向量,称之为特征向量(feature vector);

一般的:D={X1,X2,....,Xm}称为m个示例的数据集,对于每一个Xi={xi1,xi2,.....xid}表示有d个属性的示例;

从大量数据学得模型的过程称之为“学习(study)”或“训练(train)”,学习过程中所使用的的数据集合称之为训练集,每一个

样本称之为训练样本。

通常的问题有两类:分类问题,研究问题是离散的(单分类问题和多分类问题);回归问题,研究的问题是连续的;

在学习得到模型之后,使用其进行“预测”的过程称之为测试,被预测的样本称之为预测样本(testing sample)

学习任务可以分为(三种):监督学习、无监督学习、半监督学习;

错误率:错误样本占样本总数的比率(error rate),a为错误样本个数,m为样本总数,则错误率为a/m;

(特殊的:1-a/m称之为精度(accuracy),即精度=1-错误率)

误差:实际值与预测值之间的差值;

过拟合:把训练样本中的特点当做了潜在样本所具有的一般特性,导致模型泛化性下降的现象;(学的过精,学习能力过强)

欠拟合:不能反映训练样本所具有的一般性质的现象;(学的不精,学习能力低下)

模型的评估方法:使用测试集来测试模型对新样本的判别能力,要求新的测试集尽量与训练集保持互斥;

          常用方法:1)留出法:对数据集进行划分,将其划分为两个互斥的集合一个做训练集一个做测试集;

         (注:使用此方法的时候,要保证训练集中数据分布的一致性,即采用分层抽样的方式划分数据。而且不                  

        能只是采用一种划分方式,要采取多种分类方式,分别计算出每组情况的精度,以这些精度的平均值为结果)

         2)交叉验证法:将数据集划分为k个大小相似的互斥子集,每一组数据均保证数据分布的一致性,每次

         采用k-1个集合的并集作为训练集,余下的1个作为测试集,这样一共可以获得k组训练&测试集合,以这k

         组数据的平均值作为结果。(注:此方法的稳定性与真实性取决于k值的大小,当样本过大时会导致模型

         计算开销过大。)

          3)自助法:对于给定m个样本的数据集合D,对其进行采样所产生的数据集为D‘,每次从D中挑选一个

           样本加入到D‘中去,然后再将此样本放回初始集合D中去,使得此样本在下一次采样时仍有可能被取到,

           将此过程重复m次,就获得了包含m个样本的数据集合D’,可以知道D中的部分样本在D’中一定会多次出

           现,而也会有一部分不出现在D’中。样本不会被取到的概率为1/e,用D’为训练集构造模型,用D/D'作为

           测试集来验证模型的正确性;(注:适用于数据集较小,且难以有效划分训练集/数据集)

模型的性能度量:采用所有(预测值-实际值)^2的和的平均值进行度量;(通过方差进行度量

对于二分类问题,根据真实类别和预测类别可以划分为(真正例TP、假正例NP,真反例TN,假反例FN)

对于这四个参数满足:TP+NP+TN+FN=样本总数;

真实情况

预测结果

正例

反例

正例

TP(真正例)

FN(假反例)

反例

FP(假正例)

TN(真反例)

查准率(准确率)P:TP/(TP+FP)

查全率(召回率)R:TP/(TP+FN)(注通常情况下,查准率和查全率成反比)

举个例子:好瓜与坏瓜的差准率&查全率,对于我们预测为好瓜的个数为TP+FP,其查准率为TP/(TP+FP),

对于所有好瓜中有多少被查出,其差准率为TP/(TP+FN),即查准率是看我们预测结果为真中有多少数据是准确的

(在这里就是被预测为好瓜的个数中到底有多少为好瓜),查全率是看我们的实际数据为真中有多少被预测出来的

(贼这里就是实际为好瓜中有多少被选出);

再举个例子:丰田公司造出的一批汽车,只有检验(预测)通过的才能出厂,则最后出厂的个数为TP+FP辆,在这

一批车辆中实际合格车辆个数为TP辆,则差准率为TP/(TP+FP)。在这一批实际合格车辆中(TP+FN)中有TP辆

允许出厂则查全率为TP/(TP+FN);(查准率即预测的结果有多少是对的,查全率正确的结果有多少被预测到了

通过查准率和查全率构造的图像称之为P-R图像面积越大的曲线(模型)性能越好

(在P-R图像中,查全率=查准率的点称之为平衡点)

这里记查准率为P,查全率为F:F1=2PR/(P+R);化简整理得出2TP/(样本总数+TP-TN)

发布了79 篇原创文章 · 获赞 81 · 访问量 5736

猜你喜欢

转载自blog.csdn.net/weixin_44638960/article/details/102583989
今日推荐