機械学習ノート - 機械学習、分類およびパフォーマンスメトリック

機械学習分類器

  • 教師付き学習:分類、回帰。
  • 教師なし学習:次元削減、クラスタリング
  • 強化学習

データセット

  • トレーニングセット:分類パラメータを設定することで、アルゴリズムを訓練するために使用されるモデルを、分類モデルを訓練します。
  • バリデーションセット:学習データのモデルの訓練セットの複数の検証セット、およびモデルの記録精度を予測します。モデルパラメータを調整するために使用される効果、に対応する最良のモデルパラメータを選択します。(非必須)
  • テスト設定:パフォーマンスと分類モデルをテストするために能力を。

教師付き学習
の新しいデータの入力は、結果はこの機能に基づいて予測することができたときに与えられた学習データからは、学習機能を設定します。
コアは、分類および回帰であります

  • カテゴリー:出力が離散変数であるが、定性的な出力です。
  • 回帰:出力は、それが量的出力され、連続変数です。

教師なし学習の
クラスタリングと次元削減

  • いいえラベルデータ入力は、データ・タイプは、未知のサンプルのニーズがそのようによれば、サンプルのサンプルセット間の類似ことが分割されるべきではないクラスとの間の間隙を最大にするために、ギャップのクラスが最小化されます
  • 推定された確率密度関数に基づいて、直接法
  • サンプル間基づいて類似度をクラスタリング

強化学習
も強化学習として知られ、学習や強化学習の評価

  • 最大のリターンを達成するか、特定の目標を達成するための戦略を学習することにより、対話環境でのエージェントの問題を説明し、解決するために使用します。
  • 機械学習パラダイムと方法論の一つ

強化学習は、学習情報環境へのアクセスを受信することにより、以前に与えられた任意のデータが、アクション(フィードバック)の報酬を必要とし、モデルパラメータを更新しません。

機械学習パフォーマンス・メトリック

エラー
モデル出力真値からのずれの程度、損失関数の通常サイズは、誤差を測定するために定義しました。
トレーニングセットやトレーニングエラーのエラー経験エラーと呼ば-エラー、経験豊富な大きさは、モデルの品質を反映しているの影響に関するトレーニングデータ合う
モデルにエラーが未知の試料の汎化誤差と呼ばれ、測定誤差は、通常ます訓練されたモデルを測定するために、未知のデータを予測する能力のための汎化誤差-近似の汎化誤差など

オーバーフィッティングとUnderfitting
ここに画像を挿入説明
オーバーフィッティング:トレーニングサンプル中のモデルは、検証データセットとテストデータに集中パフォーマンスの低下をもたらす、あまりにも優れ振る舞います。
Underfitting:トレーニングと予測パフォーマンスのモデルは良くありませんでした

一般的な評価方法:

  • 脇方法
    相互に排他的な2つの部分に既存のデータ・セット、均一な分布のデータを確保するために、テストセット率は1/3〜1/5に維持されます。

  • クロスバリデーション
    ここに画像を挿入説明
    K相互に排他的な部分にデータセット、データの各セットは、ランダムテストセット選択されたトレーニング処理

  • ブートストラップ・
    データDは、m個のサンプル、置換サンプリングとデータセットD m回を含み、データを構成するサンプリングデータは、トレーニングセットとしてD1、D1を設定し、それがテストセットとしてD1に表示されません。
    確率サンプルは、D1に表示されないで
    ここに画像を挿入説明
    、小さなデータセットに適した、トレーニングセットのサイズを削減しませんが、データの分布を変更する、偏った見積もりにつながることができます。

混同行列(誤差行列)は
、主に実際の情報のために使用され、分類結果の例は、比較
ここに画像を挿入説明
例のために、バイナリに
実(TP):モデルは、正のサンプルが正の予測
モデルは、正、負のサンプルを予測する:偽陽性(FP)、
偽陰性を( FN):このモデルは、正サンプルが負の予測
モデルは、負の負のサンプルを予測する:真のネガティブ(TN)

精度(accuray):正確に予測陰性症例の数/総数、すなわち(TP + TN)/(TP + FN + TN + FP)
正解率(精度):陽性症例/予測正しい予測の例N総数、すなわち、TP /(TP + FP)
リコール(想起):陽性症例の正例の数が正しく予測された/実際の合計数、すなわちTP /(TP + FN)

スコア-F。 ハーモニック精度の値とリコール
ここに画像を挿入説明

β=1时,该式称为F1-score或F1-measure,精确率和召回率都很重要,权重相同
β<1时,精确率更重要
β>1时,召回率更重要

F1-score:精确率和召回率的调和平均评估指标
ここに画像を挿入説明

ROC曲线
ここに画像を挿入説明
根据分类结果计算得到ROC空间中相应的点,连接这些点形成ROC曲线
靠近左上角的ROC曲线所代表的分类器准确性最高
真正率(TPR):预测为正的正样本数/正样本实际数,TPR=TP/(TP+FN)
假正率(FPR):预测为正的负样本数/负样本实际数,FPR=FP/(FP+TN)

AUC:ROC曲线下的面积
ここに画像を挿入説明
AUC=1:100%完美识别正负类,不管阈值怎么设定都能得出完美预测。
0.5<AUC<1:优于随机预测。这个分类器妥善设定阈值的话,可能有预测价值。
AUC=0.5:跟随机猜测一样,模型无预测价值。
AUC<0.5:比随机预测还差,不存在AUC<0.5的情况

PR曲线(精确率对召回率的曲线)
在同一测试集,上面的曲线比下面的曲线好(绿线比红线好);
光滑曲线比不光滑曲线好;
ここに画像を挿入説明

PR曲线与ROC曲线
相同点:采用TPR,用AUC 来衡量分类器效果
不同点:ROC曲线使用了FPR,PR曲线使用了精确率

平均絶対誤差
L1ノルム損失は
ここに画像を挿入説明
二乗誤差の平均
L2ノルム損失を
ここに画像を挿入説明
RMSE
ここに画像を挿入説明

説明された分散
データの分散を与えられたいくつかの一般的に使用される数学モデルには、量子化の変化によって説明できます
ここに画像を挿入説明

決意の係数
変化のY回帰関係の値とは、全変動の割合の比説明した
ここに画像を挿入説明
ランドインデックス
指定された具象クラス情報Cは、Kは、クラスタリング結果は、C、Kは、同じカテゴリの要素数である表しているものとします、Bは、Kの異なるクラスの数のすべての要素を表し、及びC.
ここに画像を挿入説明
RI値範囲[0,1]

ランドインデックス調整
ここに画像を挿入説明
範囲のARI [-1,1]

相互情報が
どれだけ二つのデータ分布を測定するために使用されます。U及びVは、N個のサンプルの標識の分布を想定しています。
ここに画像を挿入説明
相互情報量を正規化
ここに画像を挿入説明
相互情報調整
ここに画像を挿入説明
プロファイル係数を
単一のサンプルについて、それは他のサンプルのカテゴリーの平均距離が設けられており、Bは、異なるカテゴリで最も近いサンプルの平均距離です。
ここに画像を挿入説明

実際のクラス情報の未知への適用

公開された39元の記事 ウォンの賞賛1 ビュー1232

おすすめ

転載: blog.csdn.net/qq_43839907/article/details/104235943