【データ分析研究ノート】データ前処理

データ分析研究ノート-データ前処理

一方では、データの前処理はデータの品質を向上させることであり、他方では、データを特定のマイニング手法またはツールにさらに適合させる必要があります。

データ前処理の主な内容には、データのクリーニング、データの統合、データの変換、およびデータの仕様が含まれます。

知識ポイントは次のように要約されます。


データ前処理の主なプロセス 

データのクリーニング:主に、無関係なデータを削除し、元のデータセットのデータを複製し、ノイズデータを平滑化し、マイニングテーマに関係のないデータを除外し、欠損値と外れ値を処理します。

データ統合:複数のデータソースを組み合わせ、それらを一貫したデータストア(データウェアハウスなど)に格納するプロセス。

データ変換:データを正規化し、マイニングタスクとアルゴリズムのニーズに合わせて「適切な」形式にデータを変換します。

データ削減:大規模なデータセットの複雑なデータ分析とマイニングには時間がかかります。データ削減により、小さいながらも元のデータの整合性を維持する新しいデータセットが生成されます。指定後にデータセットを分析およびマイニングする方が効率的です。

元の記事646件を公開 賞賛された198件 690,000回

おすすめ

転載: blog.csdn.net/seagal890/article/details/105375036
おすすめ