特徴選択アルゴリズムの学習2

特徴選択アルゴリズムの研究ノート2

主に一般的な評価関数について話をします

評価関数は、視覚的な説明を行うには良いか悪いかの量を選択した後、機能を選択することです。インテリジェントなアルゴリズムと評価関数が同じである、我々はショーを定量化する必要があります

(A)心の図。


この非常に個人的な感情は明らかに子ダイアグラムを説明します。これは、要約することができます。ソースアドレスhttps://www.cnblogs.com/babyfei/p/9674128.html

評価関数の共通の特徴を選択する(B)は、3つの主に分割されています

  • 浄化フィルタ
  • ラップラッパー
  • 組み込み埋め込ま

浄化フィルタ

1.定義:重量は寸法特性の重要性を表し、右の並べ替えを試みるので、重量の各次元の特性に与えられる「点」の各次元の特徴。
単に統計的確率法の使用が評価されたことを意味します。
2.一般的な方法:
2.1相関(相関)
      機能のサブセットの品質を測定するために相関を使用を前提としている:機能良好な特徴サブセットは、相関(相関の高い高度での分類に含まれるべきです)、特性(カン低いマージン)との間の相関の低い程度います。あなたは、ベクトル間の線形相関の程度を測定するために、線形相関係数(相関係数)を使用することができます。人RがCORである実際の相関係数関数()..

2.2距離(距離メトリック)
距離メトリック特徴選択を使用することを前提としている:良い特徴サブセットは、可能な限り異なるクラスに属するサンプル間の可能な限り小さく、距離と同じクラスからのサンプルことであるべきです。
共通の距離メトリック(類似性測度)はユークリッド距離、標準化ユークリッド距離、マハラノビス距離を含みます。ユークリッド距離(\ [\ OperatorName} {DIST(X、Y)= \ SQRT {\ sum_ {I}。1 = N ^ {} \左(-y_ X_ {I} {I} \右)^ {2}} \] )、通常上記の。

2.3カイ二乗検定(カイ二乗検定)
プロセスは、各機能と予測対象について計算カイ2乗統計量であるので、一般にカイ二乗検定を使用した一貫性メトリックは、アイデアは、ターゲット無関係な特徴を識別し、予測することです。

2.4一貫性(整合性)
、異なるカテゴリに属する試料1及び試料2の場合はしかし、特性値A、Bとまったく同じで、次に特徴部分集合{A、B}は、最終的な機能セットとして選択されるべきではありません。
2.5ゲイン情報、エントロピー
エントロピー:エントロピー不確実性、より高いエントロピー、以上に不確実性を指す
\ [H(X)= - \ sum_ {i = 1} ^ {n}はP_ {I} \ 弾丸\ログ_ {2} P_
{I} \] 機能の情報が、それは、特徴Tを参照することであるという点で利得であり、それは数情報、両者の差である場合には、システムを持っていませんでしたこの機能は、システムにもたらされる情報の量、そのゲインです。含むシステム
tは非常によく計算される特性情報は、システムがすべての機能を含む情報の量を表すだけの式、です。
エントロピーは以下の特徴を有する:コレクション要素Yの分布は「純粋」である場合、それは小さいエントロピーであり; Y分布が「障害」、大きいそのエントロピーである場合。極端なケースでは:Yは値のみ、すなわち、P1 = 1を取ることができる場合、H(Y)は、最も取る
0の小さな値を、逆に、様々な値の出現確率が等しい、すなわち、1 / Mであり、次いでH場合(Y)は、最大値log2M(とるhttps://blog.csdn.net/weixin_42296976/article/details/81126883を

ラップラッパー

  这个目前我看的包裹式论文稍微多一点,主要是与原启发式算法相结合
  1.定义:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这 

最適化アルゴリズムは、GA、PSO、DE、ABC、GWO、WOA、FA、FPA、BOA、ALO、ACOとして、特にいくつかのヒューリスティックな最適化アルゴリズムの、解決することができる多くがあります。一般的に改善されたアルゴリズムは、大多数のバイナリ数です。

  2.1分类错误率
     使用特定的分类器,用给定的特征子集对样本集进行分类,用分类的精度来衡量特征子集的好坏。
 公式:$$\text {error}_{-} \text {rate}=\frac{\sum\{1 | Y i \neq P Y i\}}{\sum\{1 | Y i=Y i\}}$$

ほとんど式いくつかの論文:\ [{| R&LT |} \テキストフィットネス} = {\アルファ\ R&LT gamma_ {}(D)+ \ベータ\ FRAC {| C |} \]

 3常见的分类器
  这个写个专门的吧,挺多的,不过论文中常用的KNN和SVM居多
  <a>https://i-beta.cnblogs.com/posts/edit</a>

組み込み埋め込ま

  1.定义:
    在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属 
    性。嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
  2.给个思维导图吧
   ![](https://img2018.cnblogs.com/blog/1365906/201911/1365906-20191110095305442-150755377.png)
   这里有几个分类器,我回头单独写出来,给出代码。

参考:
1.「机器学习」周志华
2.Binaryアリライオンは、特徴選択のためのアプローチ
3.Binary蝶の最適化機能を選択するためのアプローチ
4.Whaleの最適化は、ラッパー特徴選択のためのアプローチ
5.https://www.cnblogs.com/stevenlk/をP / 6543628.html#%E7%A7%BB%E9%99%A4%E4%BD%8E%E6%96%B9%E5%B7%AE%E7%9A%84%E7%89%B9%E5 %BE%の81除去-機能-と低分散

  1. M.ダッシュ、H.劉、分類のための特徴選択。中:インテリジェントなデータ解析1(1997)131から156。
    7.Leiゆう、フアン劉、高次元の機能の選択データ:高速相関ベースのフィルタソリューション
    8.Ricardoグティエレス・オスナ、パターン解析入門(講義11:シーケンシャル機能の選択)
    のhttp://courses.cs。 tamu.edu/rgutier/cpsc689_f08/l11.pdf

おすすめ

転載: www.cnblogs.com/gaowenxingxing/p/11828885.html