前処理から、構造、選択、次元削減プロセスのアンバランス - 完全な手作業を特徴

「比率が何であるかを最終的にデータの科学コンテスト?」この質問は、10偉大な神を尋ね、約9人々は、あなたを教えがあるだろう「作品+モデルの統合を提供しています。」しかし、全体の検索はほとんど、モデルの話の多くは、通話機能の動作は、番号を付けた知っています。私が行ってきましたので、鯨コミュニティは誰もがチュートリアルに出てくるために-

この知識エンジニアリングは、データの前処理、特徴選択、機能の構築、機能低下や知識処理の不均衡の種類をカバーし、より包括的な機能、およびコード実装する機能が付属しています。

オリジナルビット長、私は自分のスキルやコード補完に基づいて、その後、(私にあなたが知っているウインクを与えてください)レスポンスが良いがある場合は、移動とに提示重要な要素を選びました -

コードや数式、会場とオリジナルを>>見たい[特長]エンジニアリングシリーズは、エンジニアリング理論とコード実装を提供します

また、最近のオンラインコンパニオンは、  機能モデリングとモデル:ネスティング人形の芸術-完全マニュアルモデルを統合し  、家へようこそ。

1.構成請求

  • 概念と原則

概念:主な特徴を導出変数を生成するように構成され、この用語は、元のデータ、特徴の組み合わせ、商業的関心の変数(新機能)の新世代を処理派生変数を参照します

  • 特徴は、特徴の組み合わせ、他の構成は、クロス機能と呼ぶことができる、前記データ変換
  • 長所と短所

長所  :新体制の効果的かつ合理的な機能は、モデルのパフォーマンスの予測能力を向上させることができます。

短所

  1. 新構造の特長は、おそらくモデルはモデルのパフォーマンスダウンにもマイナスの効果に影響を与えていない、モデルが正の効果を有するとは限らないです。
  2. 機能は意味があるかどうかを確認するために、だから、モデルの新機能の建設後、トレーニングや検証機能の選択で繰り返し参加が必要です。

1.1。特徴的なデザインの原則

新デザイン機能は、問題は考慮し、ターゲットに非常に関連する必要があります:

  1. この機能は、ターゲットへの実用的な意義があるかどうか?
  2. どのようにこの重要なの有用な機能であれば?
  3. この機能は、あまりにも他の機能に反映されているかどうかの情報?

新しい建物は検討してその有効性の問題を検証するための特徴:

  1. これは、ランダムな特徴的な構造意味をなさないを防ぐために、ドメイン知識、勘、経験と数学の知識の特性を総合的に勘案の有効性を必要とします。
  2. それが促進する上で積極的な役割を持っている場合は、モデルのモデル繰り返し反復を確認するには。
  3. またはSELECTの機能はその有効性を測定するための新機能を構築することの重要性を決定します。

1.2特性工事の一般的な方法

便利な新機能の性質に応じた構造を持つために合理的なビジネスケース分析を行うために継続する地殻変動の必要性の特定の特性と組み合わせます。

1.2.1。統計工法

単一または複数の変数(最大、最小、カウント数、平均値)等により新しい統計統計機能を形成することを意味します。

方法

  • 単変量

機能は非常にターゲットと相関している場合、我々は状況に応じて、新機能の統計値の特性としてこれを取ることができます。

  • 多変量

機能と特性の間の相互作用がある場合の後、2つの以上の変数がパケットを集約し、新しい統計機能の構成にすることができます。

例えば

単変量:衣服颜色あなたの子供のよう数量な新機能として、

多変量:衣服颜色あなたのような子供たちが身高している平均值新機能

1.2.2。継続的なデータの離散化

次のような回我々は優れた特徴情報にモデルを学習するために、データの粗粒、ファイングレイン部門が、必要があります

  • 粗粒分割(連続離散データ):処理の連続データの0〜100歳の年齢粗粒、またバイナリまたは離散点またはバケット方式と呼ぶことができるため
  • ファイングレイン割り当て:テキストマイニングでは、単語に特定の段落または文章や単語を細分化する傾向があり、このプロセスは、きめ細かなパーティショニングと呼ばれています

方法

  • 前記二値化

値が設定された閾値よりも大きい場合、分割の閾値を設定し、それは値1が割り当てられ、それ以外の場合は0が割り当てられます。典型的な例:年齢区分

  • 教師なし離散化

周波数(周波数)ビンクラスタ分類法のようなサブボックス法の幅(幅):方法ビニングいくつかのクラスにクラスタ化されたデータに対してクラスタリングアルゴリズムを使用して、各クラスはAに分割されています

典型的な例

年齢、収入

長所と短所

利点:(1)データの複雑さ(2)を減少はある程度不要なノイズを除去します

1.2.3。離散データエンコーディング

多くのアルゴリズムは、直接文字列データモデルを扱うことができない、数字のカテゴリデータに変換する必要があります

方法

  • コーディングシリアル番号

一般に、等級などのカテゴリとの大小関係を有するプロセスデータに使用される(高、低)

  • ホットエンコード(ワンホットエンコーディング)

典型的に使用されていない機能は、血液型(血液型、B型の血液、AB血液型、O-血)、血液ホットスパースベクトルに符号化されるように処理の種類、大小関係を有する、A型の血液は、として表現しますB型の血液は(0,1,0,0)として表さ、AB血液型は(0,0,1,0)として表される(1,0,0,0)、O血液型は、0,0(のように表されます0,1)

  • バイナリコード化されました

バイナリコードは、2つのステップ、シーケンス番号エンコードされたカテゴリのIDを所与それぞれについて第一のカテゴリーに分割され、カテゴリIDは、バイナリエンコーディングとして結果に対応します。一例として、A、B、AB、O血液型は、A型の血液は00として表され、B型の血液は01として表され、AB血液型を10として表される、O血液型は、11のように表現されます

長所と短所

短所:一部のモデルでは、個別の文字列データをサポートしていない、学習離散モデルを容易にエンコードします

1.2.4関数変換

方法  (典型的には連続的なデータのために)使用される単純な関数変換法:正方形(最小値- >大きな値)、平方根(大きい数値- >小さな値)に、指数関数、対数関数、微分

典型的な例

差分の時系列データ

正規分布に従わないデータを使用することができます

現在の機能のデータモデルは、キャプチャされることにはつながらない場合は

長所と短所

利点:

  1. データ変換は、正規分布の正規分布のデータを持っている必要がありません。
  2. 単に対数変換し、差動動作と呼ばれる時系列解析は、定常非定常配列の配列に変換することができるため

1.2.5。設定された演算方法

ターゲットは、演算元の機能によって実行される高い相関関係を、予想される場合に関連して、実際のニーズに応じて新しい機能を形成します。

いくつかの状況の概念の解釈:

  1. 単一算術オリジナルの特徴:無次元のと同様に処理し、例えば:X / MAX(X)、X + 10、等
  2. 特徴間の演算を行う:X(featureA)/ X(のfeatureB)、X(featureA)-X(のfeatureB)を、等

1.2.6。フリープレイ

この作品の建設の過程で明示規定されていない、より多くの特徴的な構成は、限り、新機能の構造モデルを説明することができますし、モデルは、促進する役割を持っているように、特徴的な関連性の高い標的構造と目標に、実際の状況の組み合わせが備えられていますこれは、新しいインデックスの新機能として使用することができます。

2.機能の選択

特徴選択の2.1の概要

何がそこから選択する機能しますか?

データを扱うとき、私たちは次のように、機能を選択するために、2つの側面から、一般的には、モデルを学習意味の入力特徴のトレーニングマシンを選択する必要があります。

  1. 特長は発散しています

機能が発散しない場合、例えば、分散、すなわち、このサンプル実質的サンプルの差がない、際立った特徴及び不使用で、ゼロに近いです。

  1. ターゲットとの相関

これは、対物レンズ特性と高い相関関係と、それが優先順位の選択肢を与える必要があり、より明白です。

違い:彼らは選択肢があるため、機能を削除する優先順位を与えられるべき相関の高い機能との間。

なぜ、特徴選択?

  1. 2.タスクを学習することの難しさを減らす;次元の呪いを軽減

高次元データを処理するために2つの主な技術

特徴選択と次元削減

選択方法はどのような備えていますか?

  1. フィルターろ過
  2. 法を包装ラッパー
  3. 組み込み埋め込み

2.2.Filterろ過

これは主に焦点を当てている個々の特徴を持つターゲット変数の相関。

利点は、高い堅牢性を持つように、オーバーフィット、それより効率的な計算時間です。

欠点は、機能間の相関を考慮していないため、冗長機能を選択する可能性がある、があるかもしれない分類の機能が貧弱であるが、程度の損失という、それがあると組み合わせた他のいくつかの機能が良い結果が得られます貴重な機能。

2.2.1。分散選択方法

分散は(サイズの平均度からすなわちデータ)、大きな変動変数の分散の変動度の尺度であり、我々は分散の大きいその程度を信じることができ、変数の貢献と役割モデルは、より多くのだろうことを意味していること明らかに、私たちは無意味な特徴からの雑草に、逆に、変数のより大きな分散を維持したいです。

2.2.2。相関係数

方法:機能との相関係数を算出します

フィーチャとフィーチャとの間の相関係数の大きさを計算することによって、各二つの特徴の間の相関の程度を決定することができます

公式

長所と短所

利点:実装が容易

デメリット:機能間の相関度のみが特長でスクリーニングが、相関の程度を測定するために、ターゲットに結合しませんでした

シナリオ

ターゲットとして最も有効な特徴を抽出するために、特徴選択のための冗長機能を削除し、

方法2:目標値とPの相関係数算出特性

r, p = scipy.stats.pearsonr(x, y)
# r:相关系数[-1,1]之间
# p:相关系数显著性

実際、相関強度は、相関係数の大きさを測定することであるが、相関係数の前提の有意性を評価するための評価の大きさに関係します

;したがって、我々は最初の重要な場合は、次のステップは、相関係数の大きさを見ていきます、統計的に有意な相関係数を示し、相関係数の重要性をテストする必要があります

相関係数を使用すると、大幅に相関の強さの重要性を議論するために、得られた相関係数は誤差や測定誤差をサンプリングすることにより引き起こされ、その後、研究結果は全く異なるかもしれ実施することができるこの時間を勉強することを意味し、統計的に有意ではない場合それは弱まりました。

長所と短所

明白な欠陥が直線的な関係に、彼は唯一の敏感な、メカニズムをソートする機能として、ピアソン相関係数です。

関係が非線形である場合、2つの変数が1対1の関係を持っている場合でも、ピアソン相関も0に近いとすることができます

シナリオと意義

最も効果的な情報を選択し、メモリフットプリントを削減するために設計された応用回帰特徴選択、

2.2.3。カイ二乗検定

カイ二乗検定は、関連する変数、およびカイ二乗値が決定されるので、彼らは、代替仮説を可能にするために、H0を打倒することができる場合、カイ二乗値に従ってその対応する一致の確率は、帰無仮説H0を転覆するのに十分である定性引数の定性試験でありますH1。リファレンス- 機能の選択--- SelectKBest

長所と短所

利点:スクリーニングを行なうこともできるし、質的変数が有意定性的引数に関連しています。

シナリオと意義

シナリオ:適した分類カテゴリ変数について

2.2.4。相互情報

原理と参考資料- 相互情報原理と実装

シナリオと意義

シナリオ:登録作業のテキスト分類カテゴリの特徴やそのために非常に適して

法を包装2.3.Wrapper

使用済みのパッケージが選択された機能のサブセットサンプル(タグ)集合研修や学習のための、特徴サブセットの品質の尺度として精密トレーニング(精度)を比較することにより、最良の特徴サブセットを選択し、。
前方に一般的に使用される段階的回帰(ステップワイズ回帰)、(フォワード選択)を選択し、後方選択(後方選択)。

長所と短所

長所:機能やラベル間の特徴の組み合わせの間の相関を考慮してください。

短所:により分割し、トレーニング特徴スコアの一つのサブセットによって特徴付けられるので、機能のより多くが、計算時間が増大するときに、短い時間で追加のサンプルデータ、過剰適合が容易です。

2.3.1安定性選択(安定セレクション)

これは、安定性に基づいて選択されるサブサンプリングおよび選択アルゴリズム(学習モデル)  回帰アルゴリズムを組み合わせる方法は、選択されてもよいし、SVM分類アルゴリズムなど。

原則の実現

鉄道模型は、繰り返しに特徴選択の最終結果概要を続け、機能の異なるサブセット上で実行されています。統計このような特徴は、周波数の重要な特徴であると考えることができる(数は、それの重要な特徴として選択された試験されるサブセット内の数で割った値)。理想的には、スコアの重要な特徴は、100%に近くなります。最も便利な機能が近い0のスコアになりつつ特徴付けほとんどは、弱い非スコア数ビット0。

長所と短所

長所:
機能は、純粋な投げ縄とランダムフォレストの結果とこの方法の価値の特に急激な減少ではないことは同じではありませんが、見ることができるための選択の安定性データをオーバーフィットと理解し克服することが有用です。

一般に、良好な特徴は、0のスコアが関連付けられており、同様の特性を持っていないであろう。

多くのデータ・セットおよび環境では、安定性の選択方法は、多くの場合、最高のパフォーマンスの一つです。

2.3.2。再帰的機能の除去

再帰的特徴消去、呼ばRFE

ワークス

主なアイデアは、次のとおりです。

  1. 繰り返しのビルド(例えばSVMや回帰モデルなど)のモデル
  2. 別に選出請求次いで、(係数を選択することもできる)、最良(又は最低)機能を選択
  3. 残りの特徴に上記次いで繰り返しステップ1及び2のすべての機能がトラバースされるまで。

アルゴリズムの主なアイデアは、トレーニングの複数回に(SモデルVMである)RFEモデル群を使用することである:一般的な教育がある
最小の特徴スコアを除去し、特徴因子得点のそれぞれの特徴によれば、トレーニングの各ラウンドの後、
及び機能セット、トレーニングの次のラウンドの残りの部分と新機能の構築、すべての機能がトラバースされるまで。

このプロセスは、あるソート機能を排除するために特徴がある、実際には、これは、findで最適な特徴サブセット貪欲アルゴリズム。

長所と短所

RFEは、モデル選択の種類、反復選択の安定性に大きく依存します。

  1. RFEは、一般的なリターンが正規されていない使用している場合回帰はそうRFEが不安定であること、不安定です
  2. もしリッジまたはなげなわモデル正則のリターンが安定した後、これRFEは安定しています。

2.3.3。特徴量の選択をソート

概念と原則

結果をスコア(予測スコア)モデル(プラスの効果または負の効果かどうか)て破壊ソートや後の機能であれば、理論的には、非常に大きな影響でしょう、
あなたは、モデルの特徴を説明することができますが重要です;逆に、それが存在するか、この機能を示していないモデルの性能は影響を受けません。

そのようなAの原則に基づいて、我々は提案することができます:
(1)インパクト後のソート機能や動揺の間に重要な機能として同定されたモデルのパフォーマンスの非常に明白な特徴になります。
並べ替え機能や重要な特徴として、指定されたモデルの性能、上の混乱、ほとんど影響を行った後、(2)。

埋め込み2.4.Embedded

特定のアルゴリズムと機械学習を使用するモデルは、各特徴量の重み係数を訓練され
た係数の選択機能を降順に。フィルタ方法は同様であるが、トレーニングの利点の特性によって決定されます。
正則が、あるいは決定木のアイデアを使用して、ランダムフォレストとグラデーション高めるなど

埋め込み方法と差分法包装:包装法は、予測結果がスコア、および埋め込み方法は、特徴の重みを表す予測係数後の重量値に応じて選択さに応じて選択しました。

ワークス

各機能の重み係数を取得するために訓練するために、特定のアルゴリズムと機械学習モデルの最初の使用は、係数を降順に応じて機能を選択します。

いくつかの機械学習方法自体は、スコアリング機能のメカニズムを持っている、または簡単に、特徴選択タスクに適用することもできる
など回帰モデル、SVM、ツリーモデル(決定木、ランダムフォレスト)、など

2.4.1。線形モデル

ワークス

モデルに対応する係数のより重要な特徴は、機能に対応する複数の独立変数が0に近くなるほど、標的と係数(タグ)となります。
それは、機能の比較的独立している場合ではない多くのノイズデータの量に関するデータ、またはデータでは、多くの特徴よりはるかに大きい
ので、でも非常に良いを達成することができますあまりにも最も単純な線形回帰モデルを使用して効果

長所と短所

短所:

  1. 間に複数の機能がある場合は相互に機能は、モデルが不安定になります
  2. ノイズに敏感なモデルを発生し、データの微妙な変化は劇的な変化につながる可能性

2.4.2。正則

正則は、過度の上昇を一般化するのを防止するために提案されている合併に既存のモデル(損失関数)に追加される追加の制約やペナルティ項を置くことです。

ワークス

弱いそれらの機能に対応する係数を強制的に起因正則化項をゼロに加え損失の関数としてペナルティ項W L1ノルム係数のL1正則ラッソ(最小絶対収縮および選択オペレーター)は、ゼロになります。したがって、彼らはL1正則モデルを学んだにする傾向があり、この機能L1正則が良い特徴選択方法になりそうということ、(多くの場合、0係数w)まばらです。

L2正則化は、同様に、係数ベクトル数L2ノルムは、損失関数に追加されます。L2はL1とL2の値は多くの違いを持っ​​てなる二次係数、におけるペナルティ項であるため、最も明白な点は、L2正則化因子が平均になるだろうされています。

長所と短所

L1正則短所:微妙な変化も非常に異なるモデルをもたらし得るときにデータの関連するセットを有する特徴が発生した場合正則として非線形モデルとしてL1正則は、不安定です。

正則化の利点L2:係数データをわずかに変動するので、L2は、上記L1正則化とは異なり、安定したのモデルの特徴のための正の選択です。

要約:正則値L1のL2が正則異なるが設けられ、L2は、より多くのポジティブの理解機能のために有用である:特性強力な能力に対応する係数がゼロで表します。

2.4.3。ツリーモデル

ワークス

ランダムフォレストは、二つの特徴を選択する方法が提供される高精度、堅牢性、使いやすさ、等のランダムフォレスト、:
1.平均不純物低減
2.平均減少率精度

3.ラベルのアンバランス治療

参考資料

カテゴリーは、不均衡手段にラベルを付けます

分類タスクにおいて、データは、視差の異なるタイプからのサンプルの数を設定します。

たとえば、次の
サンプルの数は、MカテゴリAが存在すると仮定される、カテゴリBは、N、N及びMは>>>(1:N = 9 Mを仮定して)を有するサンプルの数であり 、
我々はこのデータセットを決定することができ、その場合にはそこに重大なエラーモデルを防ぐために、深刻な不均衡問題のカテゴリラベルあり、
したがってそれは、サンプルのアンバランスをモデルにしている前に対処する必要があります。

カテゴリー不均衡は、このような結果を引き起こす可能性があります

場合は、分類器の出力に、多くの場合、リードはデータの分類の大部分を集中する傾向があり、データの偏在。
ほとんどのクラスの出力は、より高い分類精度につながるが、私たちのパフォーマンスの低下の少数株主持分でます。

一般的な方法

アンダーと重み付け処理をオーバーサンプリング。

カテゴリラベルの不均衡の下での評価

カテゴリアンバランス上のデータの正確性、最悪の事態を納得させます。これは、精度、リコール、フロリダ値、FR曲線とAUC曲線を考慮すべきです。

3.1。アンダーサンプリング

アンダーサンプリングいわゆるマルチサンプルタイプA(M = 900)の数の割合を指す小さなクラスBのサンプル(N = 100)の割合、およびトレーニングと一致数を減少させました。

第一の方法(ランダムサブサンプリング)

これは、ランダムアンダーランダムデシメーションクラスA、100 B、及びカテゴリサンプルデータ100のサンプル・モデル・トレーニングのことをいいます。

ランダムサブサンプリング欠点:アンダーサンプリングしたデータのみの小さな部分を取る、おそらく、カテゴリAの原因損失への情報

第二の方法(代表的なアルゴリズム:EasyEnsemble統合学習)

アルゴリズムのアイデア:カテゴリを分割する統合学習メカニズムを使用して、異なる学習者用のサブサンプルの数にサンプルデータセット以上を占め
、各学習者は、ビューのアンダーサンプリングを行っているように、しかし、グローバルな視点ではなく重要な情報を失うことなく。

次のような原理アルゴリズムがある:
ステップ1:Aは、サンプルのサブセットを抽出したカテゴリのカテゴリAの複数の独立したランダムなサンプル数の割合。
第二ステップ:サンプル少ないと共に、各カテゴリBクラスAのサンプルデータの割合のサブセット、複数のグループを生成する分類器を訓練します。
第三段階:最後に、これらのグループ分類は、統合学習システムを形成するために結合されます。統合は、すべてのベース分類器の平均モデルまたは融合和を重み付けすることができます。

あなたは問題によって引き起こされる従来のランダムサブサンプリングデータの損失を解決することができ、およびアンバランスデータ分類の良好なパフォーマンスを示した:EasyEnsembleは、優位性を学ぶ統合しました。

3.2。オーバサンプル

オーバーサンプリングいわゆるカテゴリーB(N = 100)の小さなサンプル数の割合を指す複数の割合は、サンプルタイプAの数(M = 900)は、一貫した、及び訓練され増幅されます。

第一の方法(ランダムオーバーサンプリング)
ランダムサンプリングによる、オーバーフィッティングモデルの問題に非常になりやすい、サンプルコピー少数クラスのサンプルを高めるために、単純な戦略を引き継ぐ
モデルが情報を学ばなければならない場合でも、あまりにも(具体的な)特別ものの十分ではありません一般化(一般)、したがって、この方法はほとんど使用されています。

クラシックの代表的なアルゴリズムは打っアルゴリズムです
打ち原則参照
撃ちが合成少数オーバーサンプリング技法や「人工少数クラスオーバーサンプリング方式を」間接的少数クラスのリサンプリング、の略で
はなく、合成への新しいアルゴリズムの設計サンプル数が少ないです。

次のような原理アルゴリズムである:
(1)カテゴリーB、ランダムに選択されたサンプルとBのデータから隣人に最も近いk個の小さな割合でランダムサンプル。
接続AおよびB(または[B]インターバル)(2)は、ランダムに新しい少数クラスサンプルとしてポイントを選択しました。

3.3。重み付け処理

、ラベルの重みの異なるタイプを調整することにより、手段重み値を重み付けする、クラスBサンプルデータ量の小さい割合の重量を増加させる、マルチカテゴリAのサンプルデータ量の割合を減少させる
ように分類容量より少ない全試料割合カテゴリBことカテゴリ分類の能力と同等に競争できるように。

プロセスを重み付けするように動作次の
各試料を、右総サンプルは、複数のクラスAの重量W1(カスタム)、重量より少ない全試料割合カテゴリBは、重量W2(カスタム)を有する、請求W2> W1を占めました。
実際には、これは、このように各カテゴリラベルの重要性に影響を与え、また罰のモデルに似ています。


するために、上記の機能の動作を実現[シリーズ]コード機能工学の理論と  セクションとコード「を前処理データ」、数式などは省略しながら、テキストの抜粋は、行って、興味を持って行くためにリンクをクリックすることができます。

公開された18元の記事 ウォンの賞賛588 ビュー103万+

おすすめ

転載: blog.csdn.net/hellozhxy/article/details/103979979
おすすめ