クレイジープロジェクトアーキテクチャ
-project #のプロジェクト名 -project #プロジェクト名を持つ、フォルダ -spiders #スパイダー:下に配置されているgenspider生成横たわっ爬虫類爬虫類、 - __init__ の.py -chouti.py #引き出し爬虫類 -cnblogs.py #cnblogs爬虫類 -items.py #のクラスのモデルの内側に書かれたジャンゴで同様のmodels.pyファイル、 -middlewares.py #この中に書かれたミドルウェア(ミドルウェア・爬虫類、ダウンロードミドルウェア)ミドルウェア -pipelines.py #の書き込みローカル永続(ファイルは、MySQL、Redisを、MongoDBのに永続化) -settings.py #のプロファイル -scrapy.cfg #のラインScrapy上に展開する際の設定ファイル
スクレイピー構成ファイル
settings.py
#プロトコルの爬虫類、遵守が実行強制 ROBOTSTXT_OBEY = Falseの #のリクエストヘッダUSER_AGENT USER_AGENT = ' Mozillaの/ 5.0(Macintosh版、インテルのMac OS X-10_14_6)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/ 80.0.3987.149サファリ/ 537.36 ' #ように構成、プログラムはエラーメッセージを出力します、 、LOG_LEVEL、= 「エラー」
クローラープログラムファイル
クラスChoutiSpider(scrapy.Spider): 名 = 「chouti 」 #各クローラーの一意の名前であり、分化スパイダーに使用 allowed_domains = [ 「https://dig.chouti.com/ 」 ] #は、クロール可能ドメイン start_urlsは= [ 「https://dig.chouti.com/ 」 ] #は、開始爬虫類の位置をクロールを開始、それが最初の要求を送信する DEF構文解析(セルフ、応答): #レスポンスオブジェクト解析、応答を戻って、パーサーを自動的に実行し、このメソッドで 印刷を解析します(' --------------------------- '、応答)