2.2 データクリーニング

2.2 データクリーニング

李牧

B駅:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
コースホームページ:https://c.d2l.ai/stanford-cs329p/

1. Web ページのデータ取得

ここに画像の説明を挿入

1.データエラー

一般に、データには多くのノイズが含まれているため、データを収集した後、データを処理する必要があります。ノイズが多い場合は清掃してください

ノイズはなくても、データがモデルのトレーニングに必要な形式ではない場合、データも形式変換する必要があります。

ノイズとフォーマットの問題が解決された後、モデルのトレーニングが困難な場合は、データの特徴が明らかでない可能性があり、その上で特徴抽出を実行できます。

2. エラーの種類

  • 異常なデータ: 一部のサンプルのデータは、正規分布の範囲にありません。
  • ルール違反: 一部のデータは、データ型のルールなどに準拠していません。
  • モードの競合: 意味的および文法的制限の違反

難しさ: 本番環境のデータがどの程度の精度を達成できるかは明確ではありません

ここに画像の説明を挿入

2.1アウトリー

おすすめ

転載: blog.csdn.net/ch_ccc/article/details/129888451