機械学習(機械学習)[ズハウ・ジワのバージョン - 「スイカ帳」 - ノート] DAY2-モデルの評価と選択

ここに画像を挿入説明
オーバーフィッティング誤差2.1体験

学习器在训练集上的误差称为“训练误差”(training error)或”经验误差“。
当学习器把训练样本学得“太好”了的时候,
很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的的一般性质,
这样就会导致泛化性能下降,
这种现象在机器学习中称为“过拟合”(overfitting)。

2.2評価

当我们只有一个包含m个样例的数据集D={(x1,y1),(x2,y2),·······,(xm,ym)},既要训练,又要测试,怎样才能做到呢?
答案是:
通过对D进行适当的处理,从中产出训练集S和测试级T。下面介绍几种常见的做法。

2.1方法を除外
相互に排他的な2つの2/3〜4/5の組に直接データセット。

課の原則:データ分布の一貫性を維持するために可能な限りプロセスを分割

近いデータセット全体に大きなトレーニングセットが、テストは、安定性評価結果の欠如をもたらす、小さく設定するので、テストは大きく設定、データセット全体から逸脱する、より大きなギャップを有するデータセットは、モデルを訓練し、:の欠陥忠実度の欠如。

2.2、クロスバリデーションの
同様のサイズのk個の互いに素なセットに設定されたデータは、順番に各サブセットは、最終的に結果をトレーニングk平均を返し、テストセット、実行する訓練セットの残りを行います。

利点:より安定し、より正確なセット。

シングル欠落:大型の時間複雑

2.3は、ブートストラップ
サンプルD Mを含むデータセットは、ランダムサンプルD D「データ・オブジェクト(抽出m回)、次いでD、Dに戻し圧送」構築トレーニングセット、テストセットとして残りデータとして使用します。サンプルは、確率を取得することができなくなります。

ここに画像を挿入説明

初期サンプルセットDは、テストセットを行うためのサンプル0.732、0.368サンプルのトレーニングセットを実行しようとしているので、

利点:小さいため、効果的にトレーニングデータセット/テストセットを分割することは困難。

短所:元のデータセットの分布を変化させることによって生成されたデータセットは、この推定は、バイアスを導入することができます。

2.4スケジューリング
スケジューリング・オブジェクト:例えばK-手段によってクラスタの数として、アルゴリズムの内部パラメータ、2つのモデルパラメータ、例えばモデルパラメータを学習億の深さ。パラメータの2種類のいくつかの評価方法に基づいているが、前者は、通常、手動で設定されたパラメータ候補値を複数、学習によって後者であることを除いて、複数のモデルを生成した後に選択します。

パラメータは、連続して達成することが不可能であり、現実的なアプローチは、選択したパラメータは、どれがコストと性能(ノーフリーランチ)製の妥協案を検討している、多くの場合、最高ではないので、ステップを選択することです結果。

パフォーマンス・メトリック:精度とエラーレート、双方1の添加;平均二乗誤差、確率分布関数。

2.3パフォーマンス測定

对学习器的泛化能力进行评估,不仅需要有效可行的实验评估方法,
还需要有衡量泛化能力的评价标准,这就是”性能度量“(performance measure)。

最初のタスクは、ターゲット・リターンや分類を決定することです。

如果是回归那么性能度量方法为聚方误差:
ここに画像を挿入説明
下面主要介绍分类任务中常用的性能度量。
2.3.1 错误率与精度
错误率是分类错误的样本数占样本总数的比例,精度则相反。
2.3.2 查准率,查全率与F1

分类结果混淆矩阵
ここに画像を挿入説明
查准率:挑出来的真好瓜占所有挑出来好瓜的概率;
ここに画像を挿入説明
查全率(召回率):被挑出来的好瓜占所有好瓜的概率。
ここに画像を挿入説明
准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了

综合考虑查准率和查全率 进而提出了 F1-measure 相当于精确率和召回率的综合评价指标
ここに画像を挿入説明当F1较高时则能说明试验方法比较有效。

宏查准率、宏查全率,微查准率、微查全率不在单独介绍。

P-R图用来比较两学习器性能方法

ここに画像を挿入説明
如上图,横轴是查全率

1)c曲线被ab曲线包住,毫无疑问,ab优于c学习器;

2)寻找平衡点,如图中的红点,当查准率=查全率时,数值越高,对应的学习器往往越优秀。

3.3 ROC、AUC和EER
与P-R曲线类似,我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别作为横、纵坐标做图。

ROC曲线的的横轴为:假正例率 FP

ROC曲线的的纵轴为:真正例率 TP
ここに画像を挿入説明
ROC曲线、AUC和EER示意图
给定一个学习系统,如果更多的正样本被识别为正样本,那么也就意味着更多的负样本被识别成了正样本。图中的对角线对应于“随机猜测”模型。

1)ROC即为绿线。视情况而定,如果面部识别开锁系统的话,观察假正率为零时,真正率的高度,越高越好;
ここに画像を挿入説明
2)AUC即为蓝色面积。面积越大越好

3)EER等错误率即为绿色原点.在该点处 假正率FP和假错率FN相等,该点值越小越好。

也可以基于有限样例绘制出ROC曲线与AUC

代价敏感错误率
不同类型的错误所造成的后果或者代价是不同的,
ここに画像を挿入説明
代价敏感错误率是基于非均等代价的。二分类代价矩阵:costij表示将第i类样本预测为第j类样本的代价。一般说来,costii=0;若将第0类判别为第1类所造成的损失更大,则cost01> cost10;

在非均等错误代价下,我们希望的是最小化“总体代价”,这样“代价敏感”的错误率为:
ここに画像を挿入説明
2.4 比较检验
为什么引入该部分???

1)需要比较的是泛化误差,但是我们只有经验/测试误差,测试误差是泛化误差的近似,两者接近可能性较大,偏离可能性较小;
2)测试集上的性能与测试集本身的选择有关系,同一个模型在不同测试集上的测试误差不同;
3)机器学习算法具有随机性,即便用同一个算法、同样的参数在同一个测试集上运行多次,测试结果也有可能不同。

若在某测试集上学习器A比B好,则A的泛化性能是否在统计意义上由于B,这个结论的把握又有多大???

假设检验
此处,“假设”指的是对样本总体的分布或已知分布中某个参数值的一种猜想。例如,假设模型泛化错误率为\epsilon _{0}(为假设),而测试误差为\epsilon _{1},两者是否相同???未必;但是两者接近的可能性应该比较大,相差很远的可能性比较小。因此可以通过测试错误率来推测泛化错误率的分布,这就是一种假设检验。

ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
交叉验证t检验
ここに画像を挿入説明
McNemar检验

MaNemar主要用于二分类问题,与成对t检验一样也是用于比较两个学习器的性能大小。主要思想是:若两学习器的性能相同,则A预测正确B预测错误数应等于B预测错误A预测正确数,即e01=e10,且|e01-e10|服从N(1,e01+e10)分布。
ここに画像を挿入説明
因此,如下所示的变量服从自由度为1的卡方分布,即服从标准正态分布N(0,1)的随机变量的平方和,下式只有一个变量,故自由度为1,检验的方法同上:做出假设–>求出满足显著度的临界点–>给出拒绝域–>验证假设。
ここに画像を挿入説明
Friedman检验与Nemenyi后续检验
上述的三种检验都只能在一组数据集上,F检验则可以在多组数据集进行多个学习器性能的比较,基本思想是在同一组数据集上,根据测试结果(例:测试错误率)对学习器的性能进行排序,赋予序值1,2,3…,相同则平分序值,如下图所示:
ここに画像を挿入説明
若学习器的性能相同,则它们的平均序值应该相同,且第i个算法的平均序值ri服从正态分布N((k+1)/2,(k+1)(k-1)/12),则有:

ここに画像を挿入説明
ここに画像を挿入説明
服从自由度为k-1和(k-1)(N-1)的F分布。下面是F检验常用的临界值:
ここに画像を挿入説明
若“H0:所有算法的性能相同”这个假设被拒绝,则需要进行后续检验,来得到具体的算法之间的差异。常用的就是Nemenyi后续检验。Nemenyi检验计算出平均序值差别的临界值域,下表是常用的qa值,若两个算法的平均序值差超出了临界值域CD,则相应的置信度1-α拒绝“两个算法性能相同”的假设。
ここに画像を挿入説明
ここに画像を挿入説明
2.5偏差与方差
偏差-方差分解是解释学习器泛化性能的重要工具。在学习算法中,偏差指的是预测的期望值与真实值的偏差,方差则是每一次预测值与预测值得期望之间的差均方。实际上,偏差体现了学习器预测的准确度,而方差体现了学习器预测的稳定性。通过对泛化误差的进行分解,可以得到:

期望泛化误差=方差+偏差
偏差刻画学习器的拟合能力
方差体现学习器的稳定性

簡単に知っている:分散とバイアス矛盾した自然、それはしばしば言われるバイアス-分散ジレンマ(バイアス-分散dilamma)、訓練のレベルと一緒にますます小さくなって、予測値と実際値との期待の違いを強化するために、偏差ますます小さくなって、しかし一方で、トレーニングのレベルの増加、より多くの機密データセットのアルゴリズムの変動を学習して、分散が成長しています。換言すれば、汎化誤差をリード偏差をunderfitting場合、ある程度のトレーニングの後、より多くの小さな偏差、分散は汎化誤差を支配しました。そのため、トレーニングは、ドリンクにも適度ノワールではありません。
ここに画像を挿入説明

PS:少し話を共有するために最後に、我々は見ることができ、「スチューデントのt検定。」ハ〜

公開された545元の記事 ウォンの賞賛129 ・は 40000 +を見て

おすすめ

転載: blog.csdn.net/weixin_43838785/article/details/104191898