[Li Mu Machine Learning] 1. データ取得 + データ Web クローリング

データセットを見つける

ここに画像の説明を挿入
1. 論文の一般的なデータ セット
2. 機械学習コンテストの Web サイト + ユーザーが提出したデータ セット
3. 検索エンジンの
ここに画像の説明を挿入
学術データ セット: 多くの処理が行われ、難易度は中程度で、一般的なモデルに関連しています アプリケーションの
競争データ セットには適していません:アプリケーションデータにより近い セットは、比較的クリーンで、より一般的な側面に焦点を当てたいくつかの前処理を行っています.
生データセット: 柔軟性があり、前処理が必要です

データフュージョン

データ全体が異なる場所に配置されている可能性があり、テーブルの結合
ここに画像の説明を挿入
番号が間違って書き込まれている可能性があります。または、番号の単位が考慮すべきさまざまな要因です。

人工的に生成されたデータ

GAN: 教師なし画像生成

ここに画像の説明を挿入

データ拡張: データにいくつかの変更を加える

ここに画像の説明を挿入

ウェブページのデータスクレイピング

目標: Web ページから興味深いデータを抽出する
ここに画像の説明を挿入

from selenium import webdriver

chrome_options = webdriver.ChromeOptions() # 拿出chrome的属性 
chrome_options.headless = True # 不需要图形界面
chrome = webdriver.Chrome(
	chrome_options=chrome_options) # 创建chrome
page = chrome.get(url) 

Selenium は Python のツールであり、webdriver は Chrome のバックグラウンドです
1. マシンの代わりに人為的に Web ページを閲覧するふりをする
2. IP を大量に更新し、別の IP を介して Web ページを取得します

データ注釈

ここに画像の説明を挿入
データのラベル付けプロセス図

半教師あり学習

ラベル付けされたデータとラベル付けされていないデータでラベル付けされたデータの小さな部分があります.
半教師あり学習の前提:
1. 類似した 2 つのサンプルは同じラベルを持つ可能性があります
. 2. クラスタリング -> クラス内のデータは同じラベルを持つ可能性があります.ラベル、異なるクラスも同じラベルを持つ可能性がある
3. 一般的な仮説: データの複雑さは、データを見る複雑さよりもはるかに低く、次元削減によってよりクリーンなデータを取得できる可能性があります

独学

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_48983346/article/details/126447761