セットsetting.py
ロボット排除プロトコルを変更します。
ROBOTSTXT_OBEY =偽
セットのUser-Agent
DEFAULT_REQUEST_HEADERS = { ' 受け入れ':' text / htmlで、アプリケーション/ XHTML + xmlの、アプリケーション/ XMLを、Q = 0.9、* / *; Q = 0.8 ' 、 ' 言語を受け入れる':' エン' 、 ' ユーザエージェント':' Mozillaの/ 5.0(Windows NTの6.1; Win64の、x64の)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/ 67.0.3294.99サファリ/ 537.36 ' }
start.pyを追加
IDEを使用するためには、同じディレクトリにstart.py便利な爬虫類爬虫類アセンブリファイルを作成を実行します
scrapy 輸入CMDLINEの cmdline.execute(" scrapyクロールwx_spider " .split())
ディレクトリツリー
E :. │scrapy.cfg │ │ └─BookSpider │items.py │middlewares.py │pipelines.py │のsettings.py │ start.py │を__init__.py │ ├─spiders ││biqubao_spider.py ││を__init__.py ││ │ └─__pycache__ │biqubao_spider.cpython -36 に.pyc │__init __。CPythonの -36 に.pyc │ └─__pycache__ settings.cpython -36 に.pyc __init __。CPythonの -36.pyc
ページ情報をプリントアウトし、爬虫類に次のコードを追加します。
#1 biqubao_spider.pyは DEF :(自己、応答)を解析 プリント(" * " * 50 ) 印刷(response.text) プリントを(" * " * 50)