データエラーの種類
外れ値検出
箱ひげ図のデータの半分
は箱の内側にあり、箱の高さは上下の 1.5 倍です。
ルールベースの検出 ルールベースの検出
機能依存: x->y は、x が y の正確な値を決定することを意味します.
拒否制約は、
物事を行うのに役立つさまざまなルールを指定します
パターンベースのモニタリング
構文セマンティクス
データ変換
生データの収集 -> ラベル + クリーン -> データ変形 -> 特徴量エンジニアリング -> モデル トレーニング
実数値の正規化
1. 機械学習は数値に敏感で、ギャップが大きすぎると不安定になりやすく、重要度の誤判断を招きやすい。
2. より一般的なアルゴリズム: すべての要素の平均がゼロになり、分散が 1 になる
3. すべての要素の絶対値を 0 ~ 1 にする
4.
画像変更
次元を減らして画像のピクセル値を小さくし
、画像のいくつかのフレームをサンプリングします