クレイジーなプロジェクトのアーキテクチャと構成ファイル

クレイジープロジェクトアーキテクチャ

-project    #のプロジェクト名 
  -project プロジェクト名を持つ、フォルダ 
    -spiders     スパイダー:下に配置されているgenspider生成横たわっ爬虫類爬虫類、 
      - __init__ の.py
       -chouti.py 引き出し爬虫類 
      -cnblogs.py cnblogs爬虫類 
    -items.py      のクラスのモデルの内側に書かれたジャンゴで同様のmodels.pyファイル、 
    -middlewares.py   この中に書かれたミドルウェア(ミドルウェア・爬虫類、ダウンロードミドルウェア)ミドルウェア 
    -pipelines.py    #の書き込みローカル永続(ファイルは、MySQL、Redisを、MongoDBのに永続化) 
    -settings.py     #のプロファイル 
  -scrapy.cfg        #のラインScrapy上に展開する際の設定ファイル

スクレイピー構成ファイル

settings.py

プロトコルの爬虫類、遵守が実行強制 
ROBOTSTXT_OBEY = Falseの    

#のリクエストヘッダUSER_AGENT 
USER_AGENT = ' Mozillaの/ 5.0(Macintosh版、インテルのMac OS X-10_14_6)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/ 80.0.3987.149サファリ/ 537.36 ' 
    
ように構成、プログラムはエラーメッセージを出力します、 
、LOG_LEVEL、= エラー 

クローラープログラムファイル

クラスChoutiSpider(scrapy.Spider): = chouti    各クローラーの一意の名前であり、分化スパイダーに使用 
    allowed_domains = [ https://dig.chouti.com/  ]   #は、クロール可能ドメイン 
    start_urlsは= [ https://dig.chouti.com/  ]    #は、開始爬虫類の位置をクロールを開始、それが最初の要求を送信する

    DEF構文解析(セルフ、応答):  レスポンスオブジェクト解析、応答を戻って、パーサーを自動的に実行し、このメソッドで
        印刷を解析します' --------------------------- '、応答)

 

おすすめ

転載: www.cnblogs.com/baohanblog/p/12675200.html