機械学習のPythonの簡単な

機械学習

一般性

  1. 基本カテゴリ:教師あり学習(分類、回帰)、教師なし学習(クラスタリング、次元削減)、半教師あり学習(セクションラベル付きデータおよびラベルなしデータ)ニューラルネットワークに基づいて、強化(強化)学習、深い学習(分類および回帰)、()別の領域への知識の他の領域に移行するデータが存在しない場合での転送の学習、構造化学習(出力されるターゲットような情報検索、オブジェクトマッチングとして、回帰および分類以外の問題に加えて、)

  2. Sickit-学ぶ共通機能分類

    | |アプリケーション|アルゴリズム|

    | --------------------------- | -------------------- | --------------- |

    |分類(分類)|異常検出、画像認識| KNN、SVM |

    |クラスタリング(クラスタリング)|セグメンテーション、他の集団を分割することができる| K-手段、スペクトルクラスタリング|

    |回帰(回帰)|価格予測、トレンド予測|線形回帰、SVR |

    |次元削減(次元削減)|可視化| PCA、NMF |

  3. 書籍やコース:機械学習ズハウ・ジワ、PRML-ビショップオンラインコース:アンドリュー・ウ、スタンフォード大学のcs231n、強化学習デビッド・シルバー

  4. 仕分け作業(分類):モデルの出力であるベクトル(ベクトル)

    パッケージ回帰関数モジュール:sklearn.linear_model(主に一次関数)及び(主として非線形関数)sklearn.preprocessing

    分類アルゴリズムの応用:

    金融:ローンを承認するかどうかを評価します

    医療診断は悪性か良性腫瘍である分析します

    詐欺検出

    ウェブ解析:判断のカテゴリーページ

    |カテゴリーモデル|ロード・モジュール|使用|

    | ---------- | ---------------------------- | -------------------------------------------------- ------- |

    |最近傍アルゴリズム| neighbors.NearestNeighbord |フィット()トレーニングデータを使用して、予測機能|

    | SVM | svm.SVC | |

    |ナイーブベイズ| naive_bayes.GaussianNB | |

    |ツリー| tree.DecisionTreeClassifier |クロスバリデーション、利用フィットと検証予測を使用してcross_val_score 10 |

    |統合アプローチ| ensemble.BaggingClassifier | |

    |ニューラルネットワーク| neural_network.MLPClassifier | |

  5. リターンタスク(回帰):主linear_modelモジュール、モデルの出力は、数値(スカラー)

    |回帰|ロード・モジュール|

    | ---------- | -------------------------------------------------- ---------- |

    |リッジ回帰| linear_model.Ridge |

    | lasso回归 | linear_model.Lasso |

    |弾力性のあるネットワーク| linear_model.ElasticNet |

    |最小角回帰| linear_model.Lars |

    |ベイズ回帰| linear_model.BayesianRidege(ナイーブベイズ単純ベイズ分類器ガウス、多項式モデル、多変量ベルヌーイナイーブベイズ)|

    |ロジスティック回帰| linear_model.LogisticRegression |

    |多項式回帰| prprocessing.PolynomialFeatures |

  6. クラスタリングタスク:メインクラスタモジュールベース、ユークリッド距離、マンハッタン距離、マハラノビス距離、コサイン類似度

    |クラスタリング|ロード・モジュール|

    | -------- | ------------------------------- |

    | K-手段| cluster.KMeans |

    | APクラスタリング| cluster.AffinityPropagation |

    |平均シフト| cluster.MeanShift |

    |階層的クラスタリング| cluster.AgglomerativeClustering |

    | DBSCAN | cluster.DBSCAN |

    | BIRCH | cluster.Birth |

    |スペクトラルクラスタリング| cluster.SpectralClustering |

    sklearn.cluster

    |アルゴリズム名|パラメータ|スケーラビリティ|類似性尺度|

    | ---------------- | ------------------------ | ------------------------------ | ---------------- |

    | K-手段|クラスタ番号|大規模データ|点ピッチ|

    | DBSCAN |近傍サイズ|大容量データ|ピッチ|

    |ガウス混合|クラスタ数および他のパラメータ|高い複雑かつ大規模なデータ処理に適していない|マハラノビス距離|

    |バーチ| 2点間のユークリッド距離|スケールデータ|要因、閾値および他のhyperparametric分岐|

  7. 次元削減タスク:メインモジュールベースの分解、減少したデータの視覚化とデータ

    |次元圧縮タスク|ロード・モジュール|

    | ------------ | --------------------------------------- |

    |主成分分析| decomposition.PCA |

    |切り捨てSVDとLSA | decomposition.TruncatedSVD |

    |辞書学習| decomposition.SparseCoder |

    |因子分析| decomposition.FactorAnalsis |

    | ICA | decomposition.FastICA |

    | NMF | decomposition.NMF |

    | LDA | decomposition.LatentDirichletAllocation |

    |アルゴリズム名|パラメータ|スケーラビリティ|適用タスク|

    | -------- | -------------------- | ------------ | ------------------ |

    | PCA |液滴寸法および他のhyperparametric |大規模なデータ|信号処理|

    | FastICA |液滴寸法および他のhyperparametric |超大規模データ|グラフィック画像特徴抽出|

    | NMF |ドロップ寸法およびその他のhyperparametric |規模データ|グラフィック画像特徴抽出|

    | LDA |ドロップ寸法およびその他のhyperparametric |大規模データ|テキストデータマイニングのトピック|

  8. トレーニングとデータをテスト

    。トレーニングセット(トレーニングセット):教師あり学習経験のセットを構成する場合、

    。Bテストセット(テストセット):ケース効果の評価手順が設定。

    。Cの検証セット(検証セット):スーパーは、変数のケースのセットのパラメータを調整し、スーパーモデルのパラメータ変数は、学ぶためにどのように制御します。

    。Dは、3つの部分に分かれ観察教師あり学習:トレーニングセット(50%)およびテストセット(50%)、検証セット(25%)。

    より良いフィット感を過剰適合手段は、トレーニングセット外のケースのセットでよくデータにフィットすることができない、トレーニングセットと仮定して求めることができます:電子underfitting対(過剰適合)過剰適合;正則(正則化)オーバーフィッティングの程度を減らすことができ、ノイズや少なすぎる学習データが存在します。

    。「ゴミに、ごみの出がある」F:代表を使用するには、教師付き学習の必要性、トレーニングのための正しいデータセットにラベルを付け、そしてより良いデータがないが、良いトレーニング効果は必ずしも良く少ないデータよりもではありません。

    。Gクロスバリデーション:同じ訓練および試験データとアルゴリズムを複数回、次いでトレーニングアルゴリズムブロックN-1とのデータのトレーニングセットN個のブロックに、最終試験、トレーニングセットのために十分な時間ではありません

  9. 影響評価 - 偏差と分散

    。Aは、予測誤差を評価するために、二つの基本的な指標を教師あり学習:バイアス(偏り)と分散(分散)を、高分散がオーバーフィットトレーニングデータを、ずれが性能に適合するように十分に高いがあります。

    偏差B - 分散平衡:二つは、バック逆特性で今減少率を有し、別のインジケータが増加します。

    。C教師なし学習:なし予測誤差、特性評価データ構造の一部、特定のタスクの評価方法。

    。D教師なしアセスメント、例えば - 癌を予測する(真陽性TP(真陽性)+真陰性TN(真陰性)+偽陽性FP(偽陽性)+偽陰性FN(偽陰性)):

    精度評価精度=(TP + TN)/(TP + TN + FP + FN);以前の分類で、すなわち、真陽性および真陰性の予測

    悪性精度精度= TP /(TP + FP)

    リコールリコール= TP /(TP + FN)

    他の指標のより会うよりも実際の要件を思い出してください。

  10. リッジ回帰は:X ^ TのX値をその結果、単純な線形回帰疎行列歪みを解きます

    以下のために最適化されました:

    $$

    argmin || X T、Y || 2 + || A || A ^ 2

    $$

    対応する行列解法:

    $$

    W =(X TX + AI) -1X ^ TY

    $$

  11. 強化学習は、学習は累積リターンを最大化することで、学習環境を継続的に相互作用ターゲットによってプログラムまたはエージェント(代理人)である。試しにあるため、様々な状態(環境)での必要性強化学習は、試行錯誤の学習です最終的には、環境と最適な動作(すなわち戦略)との間のマッピング関係、フィードバック与えられた環境での動作のメリットを決定するために選択することができるすべてのアクションを試してみて、

  12. マルコフ決定過程(MDP)

    MDP基本要素

    $$

    \ S \イプシロンS:状態の状態の有限集合、Sは特定の状態を表します

    \イプシロンA ::限られたアクションのアクションの収集、特定のアクションの表現

    T(S、S「)〜PR(s 『は|、S):によると、状態遷移モデルをPアクションをSからSへの移行を表す現在の状態s、行動予測される次の状態s』確率。

    $$

  13. LibLinearと火花MYLIB:大量のデータを学習ツールマシン

公開された14元の記事 ウォン称賛13 ビュー8703

おすすめ

転載: blog.csdn.net/sinat_20744625/article/details/95387086