データマイニング学習| TASK3機能の動作

  1. プロジェクトの概要機能
    「データ、データマイニングの上限を決定し、アルゴリズムはちょうどできるだけこの上限に近づいて」データは、プロジェクトの特性の後に得られたデータを指します。だから、それを工学の特徴は何ですか?フィーチャーエンジニアリングは、目的は、機械学習モデルは、より多くの可能性が近いこの制限になることです作り、より良いトレーニングデータの特徴を得ることで、プロセスを追跡するために、トレーニングデータモデルニーズに生のデータを参照します。目に見える、データマイニング機能でエンジニアリングの重要性はモデルの性能を向上させることができるように、自明である、そして時には単純なモデルで良い結果を得ることができます。
  2. コンテンツ機能の動作
  • 例外処理:箱ひげ図(または3シグマ)分析、削除外れ値;
    COX-変換(処理偏り)のBOX;オフロングテールカット。
  • 正規化/標準化特徴:
    ここに画像を挿入説明
    Zスコアは標準化(標準正規分布に変換された);ミニマックスは、標準([0,1]に変換)、べき乗則分布のために、式を使用することができます。
    ここに画像を挿入説明
  • データは、バレルポイント:浴槽のような周波数分割、等距離の点がTUB;ベスト-KS(ジニ指数バイナリを使用する同様の)パーツのキット;カイ二乗浴槽;
  • 欠損値:なし処理(似たXGBoostのツリーモデルなど)、削除(データが多すぎる欠落している);補間完了したことを、数の平均値/中央値/公共/モデリング予測/多重代入/圧縮センシング完了を含みます/マトリックスパッチの一致、欠損値をビン、箱。
  • 前記構造:前記コンフィギュレーション統計、レポートカウント和率、標準偏差、時間特性、符号化方法、分散ビンを含むなど、相対時間と絶対時間、休日、週末、.; GIS、を含む、非線形変換、ログ/ SQ /ルートなどを含む、特徴の組み合わせであって、前記相互。
  • 特徴選択
    1.フィルタリング(フィルタ):機能選択データまず、その後トレーニングや学習、一般的な方法は、レリーフ/分散送信選択/相関係数/カイ二乗検定法/相互情報量を有し、
    2ラップアラウンド(ラッパー):直接学習者のパフォーマンスに最終的に評価基準特徴サブセットとして使用される、一般的な方法は、LVM(ラスベガスのラッパー)である。
    3.埋め込み(埋め込み):結合と回り込みフィルタタイプ、トレーニング学習特徴選択、共通投げ縄回帰のプロセスを自動化します。
  • 次元削減:PCA / LDA / ICA、特徴選択はまた、次元削減です。
リリース5元の記事 ウォンの賞賛1 ビュー56

おすすめ

転載: blog.csdn.net/weixin_39294199/article/details/105147330