Scrapy爬虫類爬虫類day2--簡単な操作

セットsetting.py

ロボット排除プロトコルを変更します。

ROBOTSTXT_OBEY =偽

 

セットのUser-Agent

DEFAULT_REQUEST_HEADERS = {
   ' 受け入れ'' text / htmlで、アプリケーション/ XHTML + xmlの、アプリケーション/ XMLを、Q = 0.9、* / *; Q = 0.8 ' ' 言語を受け入れる'' エン' ' ユーザエージェント'' Mozillaの/ 5.0(Windows NTの6.1; Win64の、x64の)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/ 67.0.3294.99サファリ/ 537.36 ' 
}

 

start.pyを追加

IDEを使用するためには、同じディレクトリにstart.py便利な爬虫類爬虫類アセンブリファイルを作成を実行します

scrapy 輸入CMDLINEの
cmdline.execute(" scrapyクロールwx_spider " .split())

 

ディレクトリツリー

E :. 
│scrapy.cfg 
└─BookSpider 
    │items.py 
    │middlewares.py 
    │pipelines.py 
    │のsettings.py start.py 
    │を__init__.py 
    ├─spiders 
    ││biqubao_spider.py 
    ││を__init__.py 
    ││ 
    │ └─__pycache__ 
    │biqubao_spider.cpython -36 に.pyc 
    │__init __。CPythonの -36 に.pyc 
    └─__pycache__ 
            settings.cpython -36 に.pyc 
            __init __。CPythonの -36.pyc

 

ページ情報をプリントアウトし、爬虫類に次のコードを追加します。

#1 biqubao_spider.pyは     
DEF :(自己、応答)を解析
         プリント" * " * 50 印刷(response.text)
         プリントを" * " * 50)

 

おすすめ

転載: www.cnblogs.com/luocodes/p/11794113.html