ページの解析とデータを抽出します
4つの主要なステップの合計の実際の爬虫類には:
- セット(あなたが検索する範囲やウェブサイトしようとしているか知っています)
- クライム(サイトの全体の上昇下降のすべての内容)
- (私たちはで削除するために、データが役に立たない、データ解析を)取ります
- デポジット(私たちは保存する方法や用途に応じて)
- 表(アイコンのショーの一部でデータの種類に応じて)
これまで学んだが、いくつかのデータ解析を行うために開始するために、今、やって失敗したか、サイトのデータから登る、およびデータ分析を下に登ることです。
データを分割することができます非结构化数据
し、结构化数据
- 非構造化データ:最初のデータ、および構造を持っています
- 構造化データ:まず、構造、およびそのデータがあります
- 異なるタイプのデータは、我々が対処する別の方法を採用する必要があります
非構造化データの処理
テキスト、電話番号、電子メールアドレス
- 正規表現Pythonの正規表現
HTMLファイル
- 正規表現
- XPathの
- CSSセレクタ
構造化データ処理
JSONファイル
- JSONのパス
- Python用の変換動作(JSONクラス)タイプ
XMLファイル
- Pythonは型に変換される(xmltodict)
- XPathの
- CSSセレクタ
- 正規表現