2.5 データセクションのまとめ

2.5 データセクションのまとめ

李牧

B駅:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
コースホームページ:https://c.d2l.ai/stanford-cs329p/

ここに画像の説明を挿入

1. データの課題:

  • データ量とラベル付け品質のトレードオフ:

データに関しても課題があります。データ量とラベル付け品質のバランスです。

機械学習の問題が異なれば、上記の 2 つの側面、特に深層学習モデルの要件も異なります。これには、一定量の高品質のラベル付きデータが必要になるだけでなく、データ量のサイズと豊富さも非常に重要です。したがって、両者の関係は実際の状況に応じてバランスを取る必要があります。

  • データ品質:
  • 多様性: 幅広いトピックをデータセットに含める必要があります。たとえば、ドライバーレスのデータセット、さまざまな気象条件、道路のシーンなどを含める必要があります。
  • 偏りのないデータセット: データセットは特定の側面に偏っていません。たとえば、上記の家のデータ セットはスタンフォードの近くで収集されているため、トレーニング済みのモデルはスタンフォードの近くの状況にしか適しておらず、データ セットに偏りがあります。
  • 公平性: 特定の人や物を異なる方法で扱わないこと。
  • **ビッグデータ管理: **実際の産業シナリオでは、機械学習プロセス全体が継続的な反復プロセスであり、新しいデータが継続的に収集および追加され、データはますます多くなります。したがって、データの保存、処理、バージョン管理、およびデータ セキュリティはすべて課題です。

おすすめ

転載: blog.csdn.net/ch_ccc/article/details/129890287