2.5 データセクションのまとめ
李牧
B駅:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
コースホームページ:https://c.d2l.ai/stanford-cs329p/
1. データの課題:
- データ量とラベル付け品質のトレードオフ:
データに関しても課題があります。データ量とラベル付け品質のバランスです。
機械学習の問題が異なれば、上記の 2 つの側面、特に深層学習モデルの要件も異なります。これには、一定量の高品質のラベル付きデータが必要になるだけでなく、データ量のサイズと豊富さも非常に重要です。したがって、両者の関係は実際の状況に応じてバランスを取る必要があります。
- データ品質:
- 多様性: 幅広いトピックをデータセットに含める必要があります。たとえば、ドライバーレスのデータセット、さまざまな気象条件、道路のシーンなどを含める必要があります。
- 偏りのないデータセット: データセットは特定の側面に偏っていません。たとえば、上記の家のデータ セットはスタンフォードの近くで収集されているため、トレーニング済みのモデルはスタンフォードの近くの状況にしか適しておらず、データ セットに偏りがあります。
- 公平性: 特定の人や物を異なる方法で扱わないこと。
- **ビッグデータ管理: **実際の産業シナリオでは、機械学習プロセス全体が継続的な反復プロセスであり、新しいデータが継続的に収集および追加され、データはますます多くなります。したがって、データの保存、処理、バージョン管理、およびデータ セキュリティはすべて課題です。