フィーチャーエンジニアリング機械学習の学習
開発
2019-12-31 12:53:55
訪問数: null
機械学習の1定義
- データ
- 自動的に取得したデータを解析し、
- 唯一の未知のデータを予測
意義をエンジニアリング2.特徴
- 意味は:直接機械学習の結果に影響を与えます
- 役割:いくつかの修飾の機能を選択するためのプロセスをスクリーニング
3.コンフィギュレーション・データセット
- プラットフォーム
- 学ぶために簡単scikit-学び、少ないデータ
- kaggle
- UCI
- 構造
- 固有値:物事の特性の一部
- ターゲット:予測値の必要性
4.プロジェクトの特徴は、コンテンツが含まれます
特徴抽出
- データ(テキストや画像)が機械認識可能な特性の数に引き込ま
- sklearn.feature_extraction
- データディクショナリ特徴抽出
- 目的:----->ワンホットエンコーディングに加工処理型情報を作る性質を持つように、このカテゴリが作られています
- dictvectorizer:デフォルトの戻りスパース行列、スパース= Falseのデフォルトのデータに戻したときに
- 抽出機能
- get_feature_names()戻り値:単語リスト
- CountVectorizer(stop_words = [])
- 中国にとっては、次のとおりです。ではない、単一の漢字の統計情報、インテリジェントなシンボルまたは各単語を分離するためのスペース
- stop_words:停止は、単語の意味します
- これらの言葉は、より中立的な言葉を記事のテーマを反映していません、
- 以下のような、そう、そのため、
- TF-IDFの抽出機能
- ファイルへのドキュメントの1つまたはコーパスの重要性のセットを評価するために使用される用語
- 公式
- TFの用語頻度は、/総ワードファイル内の単語の出現頻度数1ワードが表示されますを指し、
- 単語の一般的な重要性LG逆文書頻度(記事の記事番号キーワード/出現の数)
- TFIDF = TF * IDF(逆文書頻度)
6.前処理特性
- プロセスより適切なアルゴリズムモデルの特徴データの特徴にデータを変換するためのいくつかの変換機能を介して
- パンダを使用して欠損値
- 数値型Undimensionalization
- (小さなデータ)の正規化
- すべてのデータが[0,1]の間にマッピングされ
- 公式: (x-min)/(max-min) * (mx-mi)+mi
- マックスは、最大値であり、
- minは最小値であります
- 最大間隔MXの希望値は、これは
- マイルは、最小値の範囲は、ここで0で欲しいです
- API
- sklearn.preprocessing輸入MinMaxScaler
- 概要
- 最大値と最小値が変化することに注意してくださいは、最大および最小点は、従来の小さなシーンデータの正確なこの方法の異常な、全て比較的低い堅牢性に非常に敏感です。
- 標準化(大規模データの時間)
- 0の平均および標準偏差1の範囲に元のデータを変換することにより
- 公式
- (X-平均)/ Oの平均の平均値であり、oは標準偏差であります
- 分散式((X1-平均)^ 2 +(X2-平均)^ 2 +···(XN-平均)^ 2)/ N
- 分散の標準偏差の平方根
- データの量よりも多く存在する必要があります
- API
- sklearn.preprocessing.StandardScaler()
- ゼロ平均及び標準偏差の近傍に収集されたデータの全てを処理した後1
- 配列と同じ形状の値を返します
- なぜ正規化/標準化
- ユニットは、アルゴリズムは、他の機能のいくつかを作ることを学ぶことができない、簡単に目的の結果に影響を与え、数桁の他の機能に比べて大きな違い、あるいは大きなサイズで機能の分散を特色にします
- 実際には、統一された仕様データに異なる仕様のデータを作成します
7.機能の選択
- フィーチャー削減
- これは、機能の数を減らすことです
- 機能の数を減らし、一部の機能は無関係得られ、
- 二つの方法次元でドロップ
- 機能の選択
- フィルタリング
- 分散選択方法は、(すべての固有値に低分散を除去するために)
- 相関係数
- 埋め込み
- 主成分分析
転載: www.cnblogs.com/fandx/p/12123800.html