Pythonの爬虫類(7)_構造化データと非構造化データ

ページの解析とデータを抽出します

4つの主要なステップの合計の実際の爬虫類には:

  1. セット(あなたが検索する範囲やウェブサイトしようとしているか知っています)
  2. クライム(サイトの全体の上昇下降のすべての内容)
  3. (私たちはで削除するために、データが役に立たない、データ解析を)取ります
  4. デポジット(私たちは保存する方法や用途に応じて)
  5. 表(アイコンのショーの一部でデータの種類に応じて)

これまで学んだが、いくつかのデータ解析を行うために開始するために、今、やって失敗したか、サイトのデータから登る、およびデータ分析を下に登ることです。

データを分割することができます非结构化数据し、结构化数据

  • 非構造化データ:最初のデータ、および構造を持っています
  • 構造化データ:まず、構造、およびそのデータがあります
  • 異なるタイプのデータは、我々が対処する別の方法を採用する必要があります

非構造化データの処理

テキスト、電話番号、電子メールアドレス

HTMLファイル

  • 正規表現
  • XPathの
  • CSSセレクタ

構造化データ処理

JSONファイル

  • JSONのパス
  • Python用の変換動作(JSONクラス)タイプ

XMLファイル

    • Pythonは型に変換される(xmltodict)
    • XPathの
    • CSSセレクタ
    • 正規表現

おすすめ

転載: www.cnblogs.com/moying-wq/p/11569914.html