数理モデリングのアルゴリズムと応用を学ぶ【データ前処理】

初め。明確にしておきますが、与えられたデータに異常な点がなく、すでに完成している場合でも、すべてのビッグ データ トピックではデータの前処理が必要です。

欠損値と外れ値の検出と処理

データの問題

  • データの前処理はデータ マイニングの重要な部分であり、知識をより効果的にマイニングするために不可欠であり、クリーンで正確かつ簡潔なデータが提供される必要があります。
  • 現実世界のデータは一般に、不完全で一貫性がなくダーティなデータであり、データ マイニングに直接使用できないか、マイニング結果が満足のいくものではありません。
  • データの不一致: システム間でデータに大きな不一致があります。たとえば、属性の重みの単位: A データベースの重みの単位は kg、B データベースの重みの単位は g です。ノイズの多いデータ: データにエラーまたは異常 (期待値からの逸脱) が存在します。たとえば、血圧や身長が 0 である場合は、明らかなエラーです。
    ここに画像の説明を挿入
    欠損値:
    実際のシステム設計の欠陥や使用中の人的要因により、データ記録内のデータ値が欠落しているか不確実である可能性があります。
    ここに画像の説明を挿入
    ここに画像の説明を挿入
    データ前処理のタスクは、データ内のノイズを除去し、不一致を修正する
    データ クリーニング (クリーニング)です。データ統合では、複数のデータ ソースを一貫したデータ ストアに結合して、データ ウェアハウスなどの完全なデータ セットを形成します。たとえば、同じ会社を説明する異なるテーブルを 1 つのテーブルにマージします。データ削減 (リダクション)では、集約、冗長属性の削除、クラスタリングなどの方法でデータを圧縮し、データ変換 (変換) では、ある形式のデータを別の形式のデータに変換します (正規化など)。







    ここに画像の説明を挿入
    ここに画像の説明を挿入

データの正規化

データの標準化(正規化)処理は、データマイニングの基本的な作業です。評価指標が異なれば、次元や次元単位が異なることがよくあります。値の差が大きくなる場合があります。処理を怠ると、データ分析の結果に影響を及ぼす可能性があります。指標間の異なる次元やサイズの影響を排除するには、包括的な分析のために特定の領域にデータが収まるように、割合に従ってデータをスケーリングするデータ標準化処理が必要です。たとえば、給与所得属性値は [-1, 1] または [0, 1] にマッピングされます。
ここに画像の説明を挿入

データクリーニング

データクリーニングは主に、無関係なデータ、重複データ、平滑化ノイズデータを削除し、元のデータセットの欠損値や外れ値に対処することです。

欠損値の処理

欠損値に対処する方法は、レコードの削除、データの補完、および無処理の 3 つのカテゴリに分類できます。一般的に使用されるデータ補間方法を次の表に示します。
ここに画像の説明を挿入
ここに画像の説明を挿入
学ぶ
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

外れ値の処理

ここに画像の説明を挿入
外れ値の判断方法。
ここに画像の説明を挿入
箱ひげ図は、
ここに画像の説明を挿入
n 次元データセット内のすべてのサンプル間の測定距離を計算します。サンプル S 内の数値 p を持つサンプルの少なくとも一部が S から d よりも遠い場合、サンプル S は次のようになります。データセット S.data 内のノイズ。
ここに画像の説明を挿入
ここに画像の説明を挿入
表の結果から、
ノイズデータとして S1、S4、S6 を選択できます。(p 値が 3 以上であるため)

特徴エンジニアリング

特徴エンジニアリングは、生データから特徴を抽出するプロセスです。これらの特徴はデータを適切に記述することができ、特徴を使用して構築されたモデルのパフォーマンスは未知のデータに対して最適 (または最適に近いパフォーマンス) に達します。特徴エンジニアリングには、一般に、特徴の使用、特徴の取得、特徴の処理、特徴の選択、および特徴の監視が含まれます。
「機械学習の上限を決定するのはデータと特徴であり、モデルとアルゴリズムはこの上限に近づくだけです。」
特徴エンジニアリングのプロセスでは、まず不要な特徴を削除し、次に共線特徴などの冗長な特徴を削除し、既存の特徴を使用します。特徴、コンテンツ内の特徴、およびその他のデータ ソースを変換して新しい特徴を生成し、次に特徴を変換(数値化、カテゴリ変換、正規化など)、最後に特徴 (外れ値、最大値、最小値、欠損値) の値を処理します。など)モデルの使用に準拠します。特徴量エンジニアリングの処理を簡単に言うと、一般的にデータの前処理特徴量処理特徴量選択などがあり、特徴量の選択は状況に応じて異なりますが、特徴量が多ければ特徴量の選択なども行うことができます。
データの前処理を行う必要がありますが、特徴の選択は必要ありません。

機能の選択

全国大会では使われないかもしれないので、理解しておいてください
ここに画像の説明を挿入
フィルタリング方式
異なる属性間の相関が強い場合は、最も無関係なグループだけを残します
パッケージング方式
主に機械学習や深層学習で使用されます
ここに画像の説明を挿入
x2とx3は明らかな違い。線形関係なので、現時点では 1 つを削除できます。
PCA 主成分分析を使用できます。主成分分析とも呼ばれる
主成分分析は、1901 年にピアソンによって初めて導入され、その後 1933 年にホテリングによって開発されました。主成分分析は、次元複数の変数をいくつかの主成分 (つまり、包括的な変数) に変換する削減技術を使用して、互いに無相関であることが必要である。主成分分析は多くの分野で広く利用されており、一般に、研究課題に複数の変数が含まれており、それらの変数に明らかに相関関係がある場合、つまり含まれる情報が重複している場合には、主成分分析手法の使用を検討できます。物事の主要な矛盾を把握し、問題を単純化するのは簡単です。2 次元は線で表現でき、3 次元は面で表現できます。異なる点が直線上に投影されるため、多くの特徴が失われることはありません。3次元についても同様であり、相関度を表すために共分散が使用されます。
ここに画像の説明を挿入


ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入
ここに画像の説明を挿入

分析例

MATLAB を使用して 6 つの属性を 3 つの合成属性に変換し、その結果得られる新しい属性を解釈する必要があります。
ここに画像の説明を挿入
ここに画像の説明を挿入
例 2
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
主成分分析手法については、今後も引き続き検討するため、ここでは簡単に説明します。

Supongo que te gusta

Origin blog.csdn.net/Luohuasheng_/article/details/128582147
Recomendado
Clasificación