データ分析研究ノート-データ前処理
一方では、データの前処理はデータの品質を向上させることであり、他方では、データを特定のマイニング手法またはツールにさらに適合させる必要があります。
データ前処理の主な内容には、データのクリーニング、データの統合、データの変換、およびデータの仕様が含まれます。
知識ポイントは次のように要約されます。
データ前処理の主なプロセス
データのクリーニング:主に、無関係なデータを削除し、元のデータセットのデータを複製し、ノイズデータを平滑化し、マイニングテーマに関係のないデータを除外し、欠損値と外れ値を処理します。
データ統合:複数のデータソースを組み合わせ、それらを一貫したデータストア(データウェアハウスなど)に格納するプロセス。
データ変換:データを正規化し、マイニングタスクとアルゴリズムのニーズに合わせて「適切な」形式にデータを変換します。
データ削減:大規模なデータセットの複雑なデータ分析とマイニングには時間がかかります。データ削減により、小さいながらも元のデータの整合性を維持する新しいデータセットが生成されます。指定後にデータセットを分析およびマイニングする方が効率的です。