機械学習の特徴選択と特徴抽出

特徴抽出と特徴選択区別

特徴選択と次元削減(特徴抽出)が少しの類似点を持って、両方が同じ効果を達成するために、機能が設定されているデータ属性を軽減しようとすることです数(機能またはと呼ばれる)が、しかし、両方のモダリティこのように、元の特徴空間を変更する、新しいプロパティを取得し、そのような特性の異なる組み合わせのような特性との関係により主として次元削減法と特徴選択集中サブセットから生の特徴データを選択することである:この方法は、異なりますこれは、元の特徴空間への変更が含まれていない関係です。

II。一般的な特徴選択方法があるのですか?

特徴選択は、サンプルのサブセットから選択された重要な機能の濃度であり、

比較的がよく知られている特徴選択濾過法(フィルタ)、包装方法(ラッパー)、埋め込み(埋め込み)

まず、いくつかの機能の選択や関連用語を紹介:

前記発散機能が発散しない場合、それは機能の分散に近いと言うことですサンプルの役割を区別するために、0この機能の異なるサンプル間の差を表していないことは実質的に存在しません。

ターゲットとの相関いわゆる相関の特性と正の相関(目標値も大きくなるような特性値が大きくなる)、または負の相関特性である目標値との間に存在します。それは、強力なデータと目標値の特性との間の因果関係を表しています。

1.ろ過

ろ過または発散は関連性スコアのさまざまな機能、しきい値または特徴選択のしきい値数が終了した選択によるものです。

1) 分散法:この方法は、寸法のばらつきが特徴を破棄、閾値基準値よりも小さいことを特徴とし、基本的な閾値を、各特徴の平均及び分散を計算することによってです。この方法は、低分散の特徴のいくつかの簡単で効率的な濾過が、閾値条件を設定する設定が高すぎるを破棄、特性を保持するにはあまりにも非効率的で低すぎる設定先験的、という問題がありますあまりにも多くの便利な機能。

2)単一の可変特徴選択:単変量テスト機能選択不良機能を捨てスコアに基づいて、応答変数および前記の関係を測定するために、各機能のために行うことができます。一変量特徴選択方法、応答変数の間の関係の独立した測定値と各特徴

カイ二乗検定回帰と分類の問題のカイ二乗検定をテストするための機能などを使用することができます。

サンプル相互情報特徴選択

相互情報とは何ですか?

相互情報量(相互情報量)は、情報理論と見なすことができる有用なメトリック情報におけるランダム変数に含まれる別のランダム変数についての情報の量、又はそれは別のランダム変数を知られているので、ランダムな変数であります不確実性の削減。

2. コーティングプロセス(ラッパー)

いわゆる包装方法は、特定のアルゴリズムを選択し、次にアルゴリズムに従って効果機能のセットを選択します。

これは主に2つのカテゴリに分類ヒューリスティックな方法のための定数を検索、ことを特徴とします。

方法1:徐々にアルゴリズムモデルの精度規格かどうかを確実にする機能を追加し、いくつかの機能を選択します。

方法2:条件の下で、ゆっくりと、その後の機能の一部を削除し、アルゴリズムの精度、縮小機能を残ります。

このモデルは、これらの機能の選択、重要性の尺度を提供し、それぞれのダイレクトコール機能選択方法です。

1)線形回帰モデルを用いて

実際のデータ間の線形関係は非常に良いではありませんので、この珍しいが、非線形ランダムフォレストをモデル化するために選択されなければならない、それはまた、機能の重要性を予測するための方法を提供し、より高精度です。

LRモデルが作成されlr.coef_、それはこのような出力は以下となります。

線形モデル:-1.291 * X0 + 1.591 * X1 + 2.747 * X2の重要性が機能する前に機能による重量値を決定します

2)RF重要な機能の基礎を選択

平均不純物低減( MDI) 各エラーの減少の平均程度を表します。

(平均正解率低減 MDAの):各特徴シーケンスの特徴量を破壊し、モデルの精度の順序の変化の影響の尺度。最も重要な特徴のために、それは、モデルの精度が大幅に影響を受けることになるの順序を混乱させるが、重要な機能があるため、順序はモデルの正解率が低下します混乱させる。

3)sklearn GBDTが純度測定されないの重みを減少させる分割非リーフノードの度合いに基づいて、より多くの減少より重要な特徴について説明します。

4)は、3つの方法があるXGBoost(get_score)

重量:スプリット・ポイントとして使用する機能の数

ゲイン:セグメンテーションは平均利得を使用しています

表紙:ノード内の機能のサンプル数が分割するカバー

3. 埋め込み(埋め込み)

重量調整機能の右側の部分がに属性、正則のアイデアを使用することです、これは特性に対応し、廃棄する場合には、0。(実際には、正則化項を追加する損失関数に、損失関数を最小化する連続的な勾配降下は、いくつかの重量となり、重みのいくつかの機能を調節 0が選択され、放棄された同等の廃棄されていないのと等価ですベクトルのうち。)

特性L1スパース正則化法ソリューションズ、自然淘汰の特徴が提供され、それがL1に選択しなかった、注目すべきである、なぜなら高い相関は一つだけを保持することができる有する二つの特性を、重要な機能を表していない、あなたがしたい場合は再によって決定されるべき重要な特性クロスチェックL2正則化法。

 第三に、一般的に使用される特徴抽出方法があるのですか?

一般的に使用される方法は、主成分分析(ある PCA)、独立成分分析(ICA)、線形判別分析(LDA)は、一般的なデータの種類、それはLDAとの次元削減を考慮することが最善です。また、することができ、小さな振幅を持つ最初のノイズ除去するためのPCAの次元削減して、トレーニングデータは、優先カテゴリPCAでない場合は、LDAの次元削減を。

特徴抽出は、元の入力から形成された以下の新機能である、それは一般的特徴抽出を使用しない、より堅牢なモデルのトレーニング、そうでない場合は、データの特性種の大量の多くを行うために、データの分布を破壊します。

1.PCA

教師なし学習の次元削減の方法としてはそれは固有値分解は、ノイズ除去を、データを圧縮することができるが必要です。そのため、実際のシーンは非常に広範なアプリケーションインチ 克服するために PCAの欠点のいくつかを、のようなPCAの多くの亜種、があった非線形次元削減の解決のために、KPCAをだけでなく、増分のメモリ制限を回避ようにPCA法インクリメンタルPCAだけでなく、解決PCA、スパースPCAのまばらなデータ次元削減をして。

PCAは、最も一般的な線形次元削減でありその目的は、いくつかの線状突起、低次元表現空間、及び最大寸法の投影データの予想される分布(試料の分散に高次元データのマッピングを介するものです最もオリジナルライブより多くのデータポイントの特徴的な寸法を維持しながら、より少ないデータを使用する)散乱

長所と短所のPCA分析:

 

利点:

 

まず、分散を測定するために必要な情報の量だけ、データセットから以外の要因第二に、それは、直交主成分、オリジナルデータの構成要素間の相互作用を排除することができる要因です。第三に、計算方法は単純で、主に固有値分解操作は、実装が容易です。

 

短所:

 

まず、特徴の各次元の意味は、元のサンプルの特定の曖昧説明劣る強度特性で抽出しました。第二に、 PCAは、情報のいくつかのタイプを排除しますが、小さな変動の不活性成分はまた、その後のデータ処理に影響を与えるために起因する次元削減に破棄されることがあり、サンプルの違いに関する重要な情報が含まれていてもよいです。

 

 2.LDA

LDAは、教師付き学習次元削減技術でそのデータセットの各サンプルは、出力のタイプであることを意味し、。LDAのアイデアが一つの文章にまとめることができ、それは、「クラス最小分散、分散クラス間の最大の後にプロジェクターの中に。」それは何を意味するのでしょうか?我々は低次元投影、できるだけ近いデータの各カテゴリの背面投射希望投影点、及びできるだけ大きいようなデータの種類の異なるカテゴリの中心間の距離についてのデータが欲しいです。

長所と短所のLDA分析:

LDA このアルゴリズムの主な利点は以下のとおりです。

1 )あなたは、次元削減プロセスのカテゴリに事前の知識と経験を使用することができ、そして同様にPCA 教師なし学習このカテゴリには、事前知識を使用することはできません。

2 LDAは、サンプルの平均及び分散に依存して比較した場合、機密情報ではないPCA Jiaoyouアルゴリズム等。

LDA アルゴリズムの主な欠点は以下のとおりです。

1 LDAは、サンプルの次元削減、非ガウス分布に適していないPCA も、この問題を持っています。

2 LDAのクラスの最大数まで次元削減K-1 次元の数、およびより大きな次元の我々の場合、次元削減のk-1を、あなたが使用することはできませんLDAをもちろん、いくつかありますLDA アルゴリズムの進化のバージョンでは、この問題を回避することができます。

3 LDA 試料中の情報の分散を分類するのではなく悪い次元効果を低減する、平均時間に依存しています。

4 LDAは、データをオーバーフィットします。

 

おすすめ

転載: www.cnblogs.com/dyl222/p/11055756.html