寸法ドロップ機能の動作

真実のことば
エンジニアリング特性は機械学習アルゴリズムやモデルの上限を決定するが、ちょうどこの限界に近づい。
 
プロジェクトのどのような機能があります
以前のモデル設計のデータのためのすべての準備作業は、トレーニングアルゴリズムは機能の動作と呼ばれています。
 
プロジェクトの特徴は、どのような仕事
分析タスク、データ取得、データ処理機能 - 由来、二値化、ダミー符号化、次元削減等 - 異常、ヌル、重複した値、標準化、加工特性。このプロセスの多くの側面には、ビジネスの理解度に大きく依存しなければなりません。
フロント寸法をドロップすると、心の中で明確に持っているか、詳しく説明されていません。手動識別手動での経験に基づいて、作業プロセスのほとんどまたは削除したり、割り当て異なる重み付き次元削減のためとして。金のパレートルール保持特性、多くの場合、最大のコストは最小限リターンです:実際には、これは非常に有効な方法です。しかし、このプット運用能力に重い要求をし、機能の数は本当にそれほどではありません。したがって、次の下の特徴次元削減手法を使用する方法について説明します。
 
 
 
削減機能-機能の 選択 、機能の 抽出
特徴選択、特徴抽出:機能の低下は、2つの領域に分割されています。いくつかのコールそれ特徴選択特徴抽出、次元削減や次元削減と呼ばれる特徴抽出:それはこれらの2つのタイトルの多くの記事が一様でないことは注目に値します。
オブジェクトの次元削減:鉄道データ、テストデータの自由。
次元削減効果は:ノイズ除去及び訓練プロセス、オーバーフィッティングの効果的な除去を最適化します。
 
定義

特徴選択:M、すなわちリターン特徴サブセット、選択された特徴既存のNから機能に特徴選択は、それが意味します。

特徴抽出:FeatureExtractionは、低復元特性を作成するために、機能を機能セットの抽象化のより高いレベルを計算する既存のセットの使用を指します。
 
ただ、既存のように、原始的な世界ステイ「そのかすに、その本質、」これは、いわゆる特徴選択です。唯一の既存のスクリーニングに。
独自の世界を見下ろす世界の上位レベルに移動し、あなたは暗黙の理由は、あなたがオリジナルの理論を説明するために、より普遍的な理論を使用したい、この時間は、この特徴抽出が行われるのと同じされる物理現象の背後に混乱をたくさん見つけるでしょう事。

方法
特徴選択:
  1.1フィルター
    1.1.1分散選択方法
    1.1.2相関係数
    1.1.3カイ二乗検定
    1.1.4相互情報
  1.2ラッパー
    1.2.1再帰的な機能の除去
  組み込み1.3
    1.3.1ペナルティ項基づく特徴選択方法
    1.3.2モデルベースの特徴選択方法ツリー
1つの特徴抽出:
  1.1主成分分析(PCA)
  1.2線形判別分析(LDA)
  その他1.3
 
次元削減手法を対応sklearn
それは、データ処理や機能低下があるかどうか、それがパラメータfit_transformで、あるいは完了クラスfit_transformのsklearnの方法により行うことができる:特性行列、又は二つのパラメータを有する:マトリックスと前記ターゲットベクター。次元削減技術については、次の方法に対応します。
 
    機能の選択
カテゴリ あなたの方法 説明
VarianceThreshold フィルタ 分散選択方法
SelectKBest フィルタ あるいは相関係数、カイ二乗チェック、係数の算出方法として最大情報スコア
RFE ラッパー 再帰的モデルのトレーニンググループ、機能の排除の機能セットから小さい重み係数
SelectFromModel 埋め込み モデルグループを訓練し、高い重み係数特性を選択
 
    特徴抽出
倉庫 カテゴリ 説明
分解 PCA 主成分分析法
LDA LDA 線形判別分析
 
 
オーダーの応用
ほとんどの場合、第1の選択機能、特徴抽出であるが、特徴抽出可能な第1、特徴選択後。
 
ご注意ください
次元削減は必要ありません。結果と時間コストのオリジナルの特徴の影響が大きい、または容認できない、あなたは次元削減を必要としません。次元削減にも非常に時間がかかるです。
 
私たちは、特定の機能は、「卑しい体」かもしれない、仕事の経験は、機能の数を作った、ビジネスの理解に依存しているが、訓練モデルの完了後に - 私たちは高い相関機能は重要ではないと信じて、我々は再考する必要があります提案された、このような機能は、合理的であり、いくつかさえ機能「隔世」 - 私たちは、積極的に関連する機能は、この状況はおそらくオーバーフィッティングにつながる、全体的なサンプルと矛盾する場合には、負の相関関係になって思います。しかし、どのように我々は、前の仮定と、最終的な結果の違いを決定するのですか?
値が0未満である場合いる間相関係数の値が正よりも大きい場合、線形モデルプロパティは、通常、coef_を含む、0は負の相関であり、他のモデルは、特徴表現の重要度を属性feature_importances_ました。上記二つの特性によれば、以前に想定機能の関連性または重要性と比較することができます。しかし、理想的には、現実はスキニーで、いっぱいです。変換複雑な機能の後、特徴マトリックスXは、もはや元の外観ではない: ダミー特徴が特徴、あまり変更されたことを特徴選択少なく、寸法減少は別の次元にマッピングされたことを特徴とします。
あなたは疲れを感じるし、それを愛していませんか?我々はオリジナルの特徴の対応、そして係数特性と分析の重要性を持つ最後の特徴であることができれば、大きながありました。だから、変換動作のあらゆる側面を記録することは意味のある作品です。残念ながら、sklearnは一時的に、このような機能を提供していませ。
 
 
 
学ぶための参考:
 
 

おすすめ

転載: www.cnblogs.com/myshuzhimei/p/12112530.html