[Li Mu] 2. データクリーニング

データエラーの種類

ここに画像の説明を挿入

外れ値検出

ここに画像の説明を挿入
箱ひげ図のデータの半分
は箱の内側にあり、箱の高さは上下の 1.5 倍です。

ルールベースの検出 ルールベースの検出

機能依存: x->y は、x が y の正確な値を決定することを意味します.
拒否制約は、
物事を行うのに役立つさまざまなルールを指定します

パターンベースのモニタリング

構文セマンティクス

ここに画像の説明を挿入

データ変換

生データの収集 -> ラベル + クリーン -> データ変形 -> 特徴量エンジニアリング -> モデル トレーニング

実数値の正規化

1. 機械学習は数値に敏感で、ギャップが大きすぎると不安定になりやすく、重要度の誤判断を招きやすい。ここに画像の説明を挿入
2. より一般的なアルゴリズム: すべての要素の平均がゼロになり、分散が 1 になる

3. すべての要素の絶対値を 0 ~ 1 にする
ここに画像の説明を挿入
4.
ここに画像の説明を挿入

画像変更

ここに画像の説明を挿入
次元を減らして画像のピクセル値を小さくし
ここに画像の説明を挿入
、画像のいくつかのフレームをサンプリングします
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_48983346/article/details/126480725