データセットを見つける
1. 論文の一般的なデータ セット
2. 機械学習コンテストの Web サイト + ユーザーが提出したデータ セット
3. 検索エンジンの
学術データ セット: 多くの処理が行われ、難易度は中程度で、一般的なモデルに関連しています アプリケーションの
競争データ セットには適していません:アプリケーションデータにより近い セットは、比較的クリーンで、より一般的な側面に焦点を当てたいくつかの前処理を行っています.
生データセット: 柔軟性があり、前処理が必要です
データフュージョン
データ全体が異なる場所に配置されている可能性があり、テーブルの結合
番号が間違って書き込まれている可能性があります。または、番号の単位が考慮すべきさまざまな要因です。
人工的に生成されたデータ
GAN: 教師なし画像生成
データ拡張: データにいくつかの変更を加える
ウェブページのデータスクレイピング
目標: Web ページから興味深いデータを抽出する
from selenium import webdriver
chrome_options = webdriver.ChromeOptions() # 拿出chrome的属性
chrome_options.headless = True # 不需要图形界面
chrome = webdriver.Chrome(
chrome_options=chrome_options) # 创建chrome
page = chrome.get(url)
Selenium は Python のツールであり、webdriver は Chrome のバックグラウンドです
1. マシンの代わりに人為的に Web ページを閲覧するふりをする
2. IP を大量に更新し、別の IP を介して Web ページを取得します
データ注釈
データのラベル付けプロセス図
半教師あり学習
ラベル付けされたデータとラベル付けされていないデータでラベル付けされたデータの小さな部分があります.
半教師あり学習の前提:
1. 類似した 2 つのサンプルは同じラベルを持つ可能性があります
. 2. クラスタリング -> クラス内のデータは同じラベルを持つ可能性があります.ラベル、異なるクラスも同じラベルを持つ可能性がある
3. 一般的な仮説: データの複雑さは、データを見る複雑さよりもはるかに低く、次元削減によってよりクリーンなデータを取得できる可能性があります