- 1. 差別教師あり学習と教師なし学習
- 2. 正則
- 3. オーバーフィッティング
- 4. 一般化
- 生成されたモデルと判別モデル
- 6. 線形および非線形分類及び分類のメリットとの間の差
- 7. ILL-ための条件条件不良設定問題
- 8. L1およびL2の正規の差は、どのようにL1とL2のカノニカルを選択します
- 9. 正規化された固有ベクトル法
- 10. 異常値の処理特徴ベクトル
- 11. 小さい単純なモデルパラメータ説明
- 12. RBF SVMのカーネル関数とガウス関数の比較
- 13. 中心点を選択することにより、関数kmeans初期クラスタを
- 14. ROC、AUC
- 15. テストセットとトレーニングセットの違い
- 16. 最適化関数kmeans
- 17. 差分データマイニングや機械学習
- 18. 備考
差別教師あり学習と教師なし学習
- 教師付き学習:学習ラベル持つ訓練サンプルは、学習サンプルセット以外のデータは予想として分類されています。(LR、SVM、BP、RF、GBRT)
- 教師なし学習:これらのサンプルで見られるよりも、サンプルの非標識トレーニング学習、知識構造。(関数kmeans、DL)
正則化
正則化は、モデルの最適解は、一般的に最小限のリスク経験を最適化し、今経験的リスク(このいずれかのモデルの複雑さに加わる正則化項が規範モデルパラメータベクトルであることを、オーバーフィッティングのために提案されています)、およびモデルの複雑さと、右のリスクの以前の経験を比較検討するために速度比を使用してモデルの複雑さが高ければ、より大きなリスクが構造化経験する、目標は今となっ経験的リスクの構造の最適化を防止することができます過度に複雑なモデルのトレーニングは、効果的にオーバーフィッティングのリスクを減らします。
オッカムの剃刀、データのよく知られた解釈は非常に単純で、最適なモデルです。
過剰適合
あなたは、常にトレーニングデータの予測能力を向上させるために行く場合は、選択されたモデルの複雑さは、高いことが、オーバーフィッティングと呼ばれる現象を傾向があります。モデルのトレーニングのパフォーマンス誤りがテストの時に非常に小さいが、大きな誤差です。
原因
- あまりにも多くのパラメータので、我々のモデルはオーバーフィッティングに簡単に、複雑さの増大につながります
- 重十分に繰り返し学習(オーバートレーニング)、トレーニングデータにノイズとトレーニング例の典型的な特徴に適合していません。
ソリューション
- クロスバリデーション
- リダクション機能
- 正則化
- 重減衰
- 認証データ
一般化
汎化は、未知のデータを予測するモデルの能力を指します
世代モデルと判別モデル
- 生成されたモデル:条件付き確率分布P得られ、データP(X、Y)の学習の同時確率分布(Y | X)予測モデルとして、すなわち、モデルを生成する:P(Y | X)= P(X、Y) / P(X)。(ナイーブベイズ)
モデルを生成する同時確率分布P(X、Y)を復元し、学習の速い収束速度を有することができ、それは隠れ変数のさらなる研究のために使用することができます - 判別モデル:決定関数Y = F(X)を直接又は条件付き確率分布P(Y | X)を学習するためのデータの予測モデル、すなわち、判別モデルとして。(K最近傍、決定木)
を直接予測には、正解率が高いことが多い、様々な程度へのデータの直接抽象化は、モデルを単純化することが可能です
線形および非線形差分類器の分類器とメリット
モデルは線形関数のパラメータであり、線形分類面がある場合は、それがそうでない場合、線形分類器ではありません。
一般的な線形分類器を持っている:LR、ベイズ分類器、線形回帰パーセプトロン単層
の共通非線形分類:木、RF、GBDT、多層パーセプトロン
SVMは、両方で来る(核または線形ガウスカーネルを参照してください)
- 線形分類器スピード、簡単なプログラミングが、その効果は非常に良いフィットではないかもしれません
- 非線形分類器プログラミングの複雑さが、フィットする機能と強力な効果
機能は、データの量よりも大きい場合には、分類の種類を選ぶのか?
線形分類器は、高次元のデータは、一般的に希薄であるときので、スペースの寸法は、線形分離可能性が高いが存在することになります
高次元特徴のために、あなたは、線形または非線形分類器を選ぶのか?
同上
低次元の特徴のために、あなたは、線形または非線形分類器を選ぶのか?
線形分類器、低次元空間には、多くの機能が直線的に不可分で、その結果、一緒に来ている可能性があるので、
悪い状態不良設定問題
完成モデルわずかに変更された試験サンプルをトレーニングすることは、(単にああではない)不良設定問題であり、非常に異なる結果が得られます
L1とL2との違いは、L1とL2は、標準的な選択方法、規則的です
彼らは、予防モデルの複雑さを軽減するために、オーバーフィッティングされています
- モデルパラメータL1は、(| | XIすなわち)ノルム損失関数の背後に結合されています
-
L2は、モデルパラメータの損失関数プラス2ノルム(すなわちシグマ(XI ^ 2))の背後にある、L2ノルムの定義はSQRT(シグマ(XI ^ 2))であることに注意し、正則化に関してSQRTルートを追加していません数を最適化するためにはるかに簡単です
-
L1は、疎な特徴を生成します
- L2は、生成されたが、0に、より接近しているされています
L1は、特徴の小さな数を生成する傾向があり、そして他の特徴は0であり、L2及びゼロに近い複数の特性を選択します。L1の機能を選択する際に非常に便利ですが、それだけでL2の唯一のルールです。
正規化された固有ベクトル法
- 線形変換関数は、次式:Y =(X-MinValueプロパティ)/(MaxValueを-MinValueプロパティ)
- 対数変換、次の式:Y = LOG10(X)
- 変換の逆余接関数は、次式:Y =逆正接(X)* 2 / PI
- Y =(X-手段)/分散:を乗じた平均、分散を差し引きます
外れ値の取り扱い特徴ベクトル
- 代わりに、平均値または他の統計を使用します
小さいパラメータの説明単純なモデル
オーバーフィット嵌合する表面の各点を通過し、そのここで誘導体内側大きな曲率を有していてもよい小さな間隔が、重量の誘導体である線形モデル大きいので、より多くの小さなパラメータの説明単純なモデル。
追加:これは実際には次元のVC関連の物事がより適切な感じ見ることができます
比較SVM RBFガウスカーネル関数でと
これは、ガウスカーネルRBFカーネルのように見えます
関数kmeans初期クラスタ中心点選択したクラス
可能な限りのバッチからKポイントを選択
首先随机选取一个点作为初始点,然后选择距离与该点最远的那个点作为中心点,再选择距离与前两个点最远的店作为第三个中心店,以此类推,直至选取大k个
選択階層的クラスタリングアルゴリズムの初期クラスタまたはキャノピー
ROC、AUC
ROCおよびAUCは、多くの場合、バイナリ分類器の品質を評価するために使用されます
ROC曲線
曲線座標:
- X軸はFPRである(偽陽性率のために - 予測結果ポジティブ、実際の結果negitive、FP /(N))
- TPR Y軸(真陽性率によって表さ - 陽性予測結果、および実際に陽性の結果は、TP / Pも同様です)
次いで、点平面(X、Y):
- (0,1)は、全ての陽性サンプルが予測されている最高の分類を表し、
- (0,0)は、すべてのnegitive結果の予測を表します。
- (1,0)は、最悪の分類、予測は全体の一部が間違っ逃し表し
- 結果(1,1)は、すべての正の予測を表します。
X = Y点に当たるため、それが推測ランダムの結果によって表されます
確立するために、ROC曲線
一般的には、より高い確率、より大きな正のそれの確率、デフォルト確率の出力Pが完了した後があるだろうと予測しました。
今>しきい値は、その後、予測結果はそうでないnegitive、正のPならば、我々は、しきい値があると我々はいくつかの閾値以上に設定している、この考え方によると、その後、我々はポジティブとnegitiveの複数のセットの結果を得ることができる、つまり、我々は、TPR及びFPRの値の複数のセットを取得することができる
ライン上にこれら(FPR、TPR)座標点を、次にROC曲線である接続します
閾値は0と1をとる場合、それぞれ(0,0)及び(1,1)、2点です。(しきい値= 1、すべてのサンプルの予測陰性サンプル、閾値= 0は、全てのサンプルが陽性サンプル予測)
AUC
AUC(エリアアンダーカーブ)がROC曲線下の面積として定義され、この領域は明らかに(ROC上記一般X = Yますので、0.5 <AUC <1)1以下です。
より大きな、より良い分類結果AUC
ROCおよびAUCを使用する理由
検査が陽性と陰性サンプルの設定が変更する場合ので、ROC曲線は基本的に変わらないことができますが、精度と再現率はボラティリティがある場合があります。
http://www.douban.com/note/284051363/?type=like
テストセットとトレーニングセットの違い
トレーニングセットは、モデル、などを評価するためのテストセットを予測するため、容量のモデルを構築するために使用します
最適化関数kmeans
kdツリー又はボールツリーを使用して(ツリーはこれを理解する)、
kdツリー内のすべてのインスタンスの観測を構築し、今kdツリーでクラスタ中心によると、前に各クラスタ中心順次行わ各観測点までの距離計算に必要とされますあなただけが近くに局所的な領域を計算する必要があります
データマイニングや機械学習の違い
機械学習、データマイニングのための重要なツールであるが、データマイニング手法のないこのタイプは、グラフマイニング、頻出アイテムマイニングなど、多くの他の非機械学習とだけ機械学習、があります。データマイニングは気持ちの目的であるが、マシンの面で方法から学びます。
リマーク
間違った場所が明記してください場合は、ネットワークからの主なトピックは、その答えは、ネットワークまたは「統計的学習法」だけでなく、自分自身の要約の小さな部分から主に来て
、あなたが知りたい場合は、これを見ることができます東共通モデルに機械学習を一般的なアルゴリズムの個人的な要約(インタビュー)の記事