機械学習-day2の概要

データセット

前記列データセット

サンプル:ラインデータセット

機能や属性空間:からなる空間特性

機能または属性ベクトル:特性や空間の点の属性

トレーニングセット:+アルゴリズムは実用的な問題を解決するためのモデルを構成するトレーニングセットを使用してモデルを訓練するために使用されるデータ、

テストセット:効果を試験するために使用されるデータモデル。トレーニングセットとテストデータセットの比は、通常6:4,7:3,8:2

2非数値変換特性

    ラベルエンコーディングタグのエンコード

    エンコーディングonehotエンコーディングonehot

3パフォーマンス行列(混同行列)

 

 

     精度:(TP + TN)/(TP + TN + FP + FN)

    正解率:TP /(TP + FP)

    実質金利(リコール)TPR:TP /(TP + FN)

    偽陽性率のFPR:FP /(FP + TN)

    F1スコア(F1值):2 /(1 / TPR + 1 / FPR)

4機械学習フレームワーク契約

    データセットは、トレーニングとテストセットに分割されます

    トレーニングモデルのトレーニングセットによると、

    試験モデルによって設定された試験、評価

5機械学習クラシファイア

    教師と教師なし学習の違いを学び、クラスラベルがあるかどうかです。

    教師付き学習

カテゴリー:タグ離散値

戻る:連続値にラベルを付けます

    教師なし学習

        クラスタリング:フィーチャー間の類似性により、

        次元削減:機械学習アルゴリズムにより、次元削減の目的を達成するために、異なる特徴選択

    半教師付き学習

能動学習:専門家が標識されていないデータにラベルを付けます

純粋な半教師付き学習/トランスダクティブ:特性データと一緒に、データは、多数決の原理によれば、同じクラスに、記載クラスタリングモード分類ラベルのないデータは、非標識データに対応する前記ラベルラベルのほとんど。

    強化学習

主に正の報酬優れた性能とクマのボーナスのパフォーマンスの低下のために、継続的な意思決定の問題を解決するために使用。

    転移学習

        データの問題小:2つの関連分野、データ、少ないデータ、データは小さなデータフィールドのために、多くの分野でモデル化することができます。

        パーソナライズ問題

機械学習の6つの三つの要素

    機械学習アルゴリズム+ = +データ戦略

    機械学習アルゴリズムモデル+ = +戦略

        アルゴリズムは:パラメータを解決する方法を提供し、分析法、数値的方法があります

        戦略:できるだけ小さい予想損失の関数である損失関数、できるだけ小さい損失関数、期待P(x、y)は、経験的リスク最小化の選択肢を解決しません。ペナルティのリスクに対する肯定的な経験を追加し、それは、構造的なリスクです。

        モデル:(出力条件に従って)決定関数(出力0または1)、条件付き確率関数

機械学習システムを設計する方法7

    まずクリア:

        問題は、機械学習の問題ではありませんか?

        質問は、機械学習における問題の種類ですか?教師あり学習、教師なし学習

    データを取得する2つの方法を考えて後:

        ビューのデータポイント、教師あり学習または教師なし学習での問題から、

        ビジネスの観点からは、データを整理し、モデル化

    プロジェクトの特徴:

        処理機能

        データの処理

    アルゴリズム+データ選択 - モデル

    テストモデルセットを試験することによって、最終的なパラメータを与え

    新しいデータであれば、予測

8モデルの一般化

カテゴリ

Underfitting

過剰適合

機能

トレーニングセットとテストセットのパフォーマンスに良いではありません

テストセットの訓練は非常に良好なパフォーマンスを設定で、パフォーマンスの低下

理由

1つのモデルは単純すぎます

1つのモデルが複雑すぎます

2データの破損

3データの量が少なすぎると

時間が表示されます。

初期のトレーニング

トレーニング後半

対処方法

1増加多項式

多項式内の項目の数は2増加

ペナルティ低減正則の3

複雑な機能のために1つのモデル、ペナルティの正則化を増加させます

2再クリーニングデータ

データの量を増加させる3

4前記試料採取またはサンプリング

いくつかのランダムポイント5 dropout-を破棄

9オッカムの剃刀

    二つの非常に一般化モデル、使用するのは比較的簡単ですモデルを選択します。

10正則

    L1正則化:+ラムダ* | W |

    正規L2:+ラムダ* | W | ^^ 2

11クロスバリデーション

    単純なクロスバリデーション:6に裁断データセット:4,7:3,8:2

    クロスバリデーションをK:データは、k個の等しい部分に分割されたテストセットとして、トレーニングモデルのトレーニングセットの残りのK、平均精度で

       検証を残す:特殊なクロスバリデーションK

おすすめ

転載: www.cnblogs.com/zhuome/p/11516201.html