1.プロジェクトの概要機能
データおよび特性は、機械学習の上限を決定し、モデルやアルゴリズムがちょうどできるだけこの上限を近似します。したがって、このプロジェクトの特徴は、機械学習に重要な役割を果たしています。
プロジェクトが特徴の任意の情報に関連する問題を発見すると、機能のマトリックス値にそれらを変換します。
この場合、アプリケーションの2機能の動作
2.1外れ値の取り扱い
データ処理を事前場合、いくつかの異常値はまた、有用な情報を含む可能性があるので、異常値を除去するかどうかを、ケースのように、必要とされ得ます。
外れ値の処理方法 | 方法について説明します |
---|---|
削除レコードは外れ値が含まれています | 直接はレコード全体を削除します |
欠損値と見なさ | 欠損値の異常値を処理する方法を使用して欠損値として異常値、 |
平均補正 | 2回の観測の平均は、異常値の補正前と後に使用することができます |
扱っていません | 異常値のデータのセットを有する直接マイニングモデル |
外れ値に対処するには、我々は最初の異常値の原因が表示され、分析し、データが正しいかどう異常値は、破棄されるべきかどうかを決定する必要があり、直接掘削モデリングデータセットの外れ値を持つことができます。
2.2データの正規化
また、データの正規化と呼ばれる、データマイニングは、基本的な作業です。異なる評価指標による値との差が大きいとすることができる、いかなる処理は、データ分析の結果に影響を与えなくてもよい、異なる寸法を有する傾向があります。このためには、包括的な分析するためには、特定のエリア内に入るに応じてスケーリングされます。
1)最も値の正規化
また、直線的に元のデータを変更された標準偏差として知られ、値はにマッピングされます
の間です。変換式:
どこで:
、最大サンプル・データであります
最小値サンプル。
悪いです。
欠点:値は大きな値に集中している場合は、標準化後にゼロに近くなり、そして意志を超える濃度。そして、より多くの場合よりもで データは、エラーが、発生する再決定されなければ、範囲 和 。
2)標準偏差を正規化
それはゼロと呼ばれる - 平均正規化、治療後の平均データがあります
、標準偏差
。変換式:
どこで:
元のデータを意味するように、
正規化された生データです。これは、最も一般的に使用される標準化された方法であります
データ点の2.3バレル
また、連続的なデータ離散として知られ、連続属性は、分類プロパティに変身しようとしています。そのようなデータマイニング(ID3、アプリオリアルゴリズム、等)のようないくつかのアルゴリズムでは、データは、カテゴリ属性の形で必要とされます。
離散連続データは、異なるシンボルを使用して、間隔の離散的な数の範囲を分割し、分割のいくつかの離散データ点の範囲内に設定されるか、または最後の値は、各サブインターバルに入る整数を表します。データ値。だから、個別の2つのサブのタスクが含まれます。カテゴリの数を決定し、どのようにこれらの値を分類するために継続的な属性をマップします。
データパケットの一般的な方法は、TUB:部品の幅キット、及び他の周波数分割浴槽、サブクラスタに基づいて浴槽......
1)部分幅浴槽
範囲は、同じ属性幅、自身が生成度数分布表と同様、ユーザによって指定されてもよいデータによって決定セクションの数を有する部分に分割されています。
短所:人工配布計画の間隔に必要、外れ値に対して敏感2、属性値が不均一各部に分散する傾向がある、このような結果は、深刻な決定モデルを損傷する可能性があります。
2)周波数分割浴槽等
各セクションのレコードの数が同じに。
長所:浴槽のポイント幅欠点を回避。
短所:人工配布計画の間隔に必要; 2同じデータ値が固定された間隔を満たすために、各セクション内のデータの別の番号を割り当てることができます。
3)クラスタリング点バレルに基づきます
この方法は、2次元のクラスタリング工程を含む、属性の最初に値が(例えば、K-means法など)クラスタリングアルゴリズムクラスタ、クラスタリング処理により得られ、その後のクラスタ、クラスタに組み込まれた連続属性と連続していると同じマークを行います。
2.4欠損値
3つの欠損値を処理するための方法があります記録、ないないプロセス、データ補間とデータビニングを削除します。
1)削除レコードを
サンプルの小さな一部が欠けているがある場合、サンプルは明らかに最も効果的な方法です削除します。
欠点:無駄なデータ。
2)を扱っていません
部品モデルは、データセットのモデルが欠失を含むことができます。
3)データ補間
補間法 | 方法について説明します |
---|---|
固定値 | 固定定数に置き換えられます |
平均値中央値/モード/ | 属性のデータ型は、その直接の使用は、対応する値を埋めるために |
最近傍補間 | 属性値は、レコード内の最も近いサンプル不足しているサンプルを見つけるために、補間しました |
回帰 | 他に関連する既存のデータおよび他の変数(従属変数)のデータに基づいて欠損値を推定するためのフィットモデルを確立 |
補間 | いくつかの既知の点を使用して、対応する関数値点をパディングすることによって、未知の値を見つけ、適切な補間関数を確立します |
4)データビニング
同じグループ内の欠落しているデータ値を含むデータ。
2.5建設特性
1)統計機能
2)特性の時間
3)地理情報機能
4)非線形変換
5)機能の組み合わせを
2.6特徴選択
原理は:機能の最小の可能なサブセットを取得し、大幅な分類の精度を低下させない、分類が分布に影響を与えず、安定した特徴サブセット、適応特性を持っている必要があります。
1)フィルタリング(フィルタ)
この方法では、第一の特徴の選択、その後、列車の学習者に、ように、特徴選択プロセスは、セレクタとは何の関係もありません。次いで、フィルタリング動作の第1の特徴、学習者を訓練する機能のサブセットに対応します。
アイデア:各ディメンションの権利に従って再ソートされ、続いて、各次元の重みの特性に与えられる「ポイント」特徴
方法:
- カイ二乗検定(カイ二乗検定)
- 情報利得(ゲイン情報)
- 相関係数スコア(相関係数)
長所:走行速度は、非常に一般的な特徴選択方法です。
短所:1.規範現実機能検索アルゴリズムが完了すると、機能の選択基準、フィードバックを提供することができない、学習アルゴリズムは、機能の検索アルゴリズムにオンデマンド機能で配信することはできません。2.特定の特性に対処する上で何らかの原因による可能性がありますこの機能は重要ではありませんが、他の機能と組み合わせて、この機能は重要があるかもしれません。
2)カプセル化された(ラッパー)
また、ラップアラウンド方式として知られています。評価関数選択機能、特定の分類器のための最適な特徴サブセット選択として、最終的な分類器に直接使用するための方法。
思想:組み合わせの異なる組み合わせを生成するために最適化問題として、検索のサブセットを選択しますが、他の組み合わせと比較して、その後、評価しました。この時点で、あなたがそのようなGA、PSO、DE、ABCやその他の方法として、特にいくつかのヒューリスティックな最適化アルゴリズムの、いくつかの最適化アルゴリズムを使用することができ、最適化問題として見ることができます。
方法:再帰的な特徴除去アルゴリズム。
長所:1。機能は学習アルゴリズムを中心に展開されている検索、特徴選択基準は、アルゴリズムの学習のニーズに合わせて展開され、図2は、学習アルゴリズムを学ぶのずれが子供の最適な特性と本当に学習の問題を決定するために属しているとみなすことができます。自身; 3。各学習アルゴリズムは、特定のサブセットのために実行する必要がありますので、それは学習アルゴリズム、要約偏差を学習偏差に注意を払うことができ、パッケージが大きな役割を果たしていることができます。
欠点:フィルタリングアルゴリズムははるかにゆっくりと実用的なアプリケーションは十分な広さではありませんよりも実行します。
3)エンベデッド(Embedded)上
選択したモデルがトレーニングに埋め込まれています、彼らの訓練は、同じモデルであってもよいが、特徴選択が完了した後、特徴選択があり、完全な与えると再び最適化の訓練にスーパーモデルのトレーニングパラメータを備えことができます。
アイデア:プロセスのモデルを決定するために、つまり、モデルの精度を向上させるために最高の機能を学習し、それらの特性を選ぶには、モデル与えられた状況での訓練モデルに非常に重要です。
方法:ランダムフォレスト平均不純物低減方法、平均精度を減少させる方法、(ペナルティ項はまた、L2を最適化するように組み合わされてもよい)、特徴選択とL1の正則化項で行わ。
利点:1 ;学習アルゴリズム検索機能を中心に展開され、学習は学習アルゴリズムのずれが属するとみなすことができる。2.訓練倍以下カプセル化アプローチよりも、時間の比較を保存すること。
短所:まだ遅いに対するアプローチ速度をフィルタリング。
2.7次元削減
1) 主成分分析
主成分分析(主成分分析、PCA)観測の線形一連の主と呼ばれる変数線形独立、無相関変数の値の系列をプロジェクトに関連する変数とすることができる変換するアルゴリズムを用いて直交変換食材。これは、次元削減アルゴリズムの非常に基本的な一種です。
注:PCA正または生データは事前に敏感です。
2)線形判別次元削減
線形判別次元削減(線形判別分析、LDA)アルゴリズムは、そのように、データ分散の異なるタイプとして、できるだけコンパクトにデータの同じタイプは、機械学習アルゴリズムが監視することを、低次元データ空間に投影されます。
3)独立成分分析
ICA(独立成分分析、ICA)は、多次元統計からその固有の因子または成分のための方法を見出すことです。
継続するには
参考: