フィーチャーエンジニアリング機械学習の学習

機械学習の1定義

  • データ
  • 自動的に取得したデータを解析し、
  • 唯一の未知のデータを予測

意義をエンジニアリング2.特徴

  • 意味は:直接機械学習の結果に影響を与えます
  • 役割:いくつかの修飾の機能を選択するためのプロセスをスクリーニング

3.コンフィギュレーション・データセット

  • プラットフォーム
    • 学ぶために簡単scikit-学び、少ないデータ
    • kaggle
    • UCI
  • 構造
    • 固有値:物事の特性の一部
    • ターゲット:予測値の必要性

4.プロジェクトの特徴は、コンテンツが含まれます

  • 特徴抽出
  • 前処理の特性
  • フィーチャー削減

特徴抽出

  • データ(テキストや画像)が機械認識可能な特性の数に引き込ま
  • sklearn.feature_extraction
  • データディクショナリ特徴抽出
    • 目的:----->ワンホットエンコーディングに加工処理型情報を作る性質を持つように、このカテゴリが作られています
    • dictvectorizer:デフォルトの戻りスパース行列、スパース= Falseのデフォルトのデータに戻したときに
  • 抽出機能
    • get_feature_names()戻り値:単語リスト
    • CountVectorizer(stop_words = [])
    • 中国にとっては、次のとおりです。ではない、単一の漢字の統計情報、インテリジェントなシンボルまたは各単語を分離するためのスペース
    • stop_words:停止は、単語の意味します
      • これらの言葉は、より中立的な言葉を記事のテーマを反映していません、
      • 以下のような、そう、そのため、
    • TF-IDFの抽出機能
      • ファイルへのドキュメントの1つまたはコーパスの重要性のセットを評価するために使用される用語
      • 公式
        • TFの用語頻度は、/総ワードファイル内の単語の出現頻度数1ワードが表示されますを指し、
        • 単語の一般的な重要性LG逆文書頻度(記事の記事番号キーワード/出現の数)
        • TFIDF = TF * IDF(逆文書頻度)

6.前処理特性

  • プロセスより適切なアルゴリズムモデルの特徴データの特徴にデータを変換するためのいくつかの変換機能を介して
  • パンダを使用して欠損値
  • 数値型Undimensionalization
    • (小さなデータ)の正規化
      • すべてのデータが[0,1]の間にマッピングされ
      • 公式: (x-min)/(max-min) * (mx-mi)+mi
        • マックスは、最大値であり、
        • minは最小値であります
        • 最大間隔MXの希望値は、これは
        • マイルは、最小値の範囲は、ここで0で欲しいです
      • API
        • sklearn.preprocessing輸入MinMaxScaler
      • 概要
        • 最大値と最小値が変化することに注意してくださいは、最大および最小点は、従来の小さなシーンデータの正確なこの方法の異常な、全て比較的低い堅牢性に非常に敏感です。
    • 標準化(大規模データの時間)
      • 0の平均および標準偏差1の範囲に元のデータを変換することにより
      • 公式
        • (X-平均)/ Oの平均の平均値であり、oは標準偏差であります
        • 分散式((X1-平均)^ 2 +(X2-平均)^ 2 +···(XN-平均)^ 2)/ N
        • 分散の標準偏差の平方根
      • データの量よりも多く存在する必要があります
      • API
        • sklearn.preprocessing.StandardScaler()
          • ゼロ平均及び標準偏差の近傍に収集されたデータの全てを処理した後1
          • 配列と同じ形状の値を返します
    • なぜ正規化/標準化
      • ユニットは、アルゴリズムは、他の機能のいくつかを作ることを学ぶことができない、簡単に目的の結果に影響を与え、数桁の他の機能に比べて大きな違い、あるいは大きなサイズで機能の分散を特色にします
      • 実際には、統一された仕様データに異なる仕様のデータを作成します

7.機能の選択

  • フィーチャー削減
    • これは、機能の数を減らすことです
    • 機能の数を減らし、一部の機能は無関係得られ
    • 二つの方法次元でドロップ
      • 機能の選択
        • フィルタリング
          • 分散選択方法は、(すべての固有値に低分散を除去するために)
          • 相関係数
        • 埋め込み
          • ディシジョン・ツリー
          • 正則化
          • 綿密な研究
      • 主成分分析

おすすめ

転載: www.cnblogs.com/fandx/p/12123800.html