python基于 Scrapy 的爬虫自动登录（内附python教程分享）

起步

首先我们使用Scrapy的命令行创建一个新的项目

scrapy startproject douban

运行后，我们就有了下面这样的目录结构

python基于 Scrapy 的爬虫自动登录（内附python教程分享）

Scrapy为我们生成了已经组织好的目录结构，上面的注释部分解释了每个文件及目录的作用。

建立目标

本篇我们来建立两个目标，这两个目标都是基于豆瓣网：

目标一：抓取豆瓣TOP250的图书信息并保存成csv文件

目标二：抓取我的第一页豆邮标题（需要登录），并保存成csv文件

分析目标一

目标一是豆瓣的TOP250图书信息，首先我们进入到TOP250的列表(https://book.douban.com/top250) ，我用图示圈出我们这次要爬取的内容，具体请看图示：

python基于 Scrapy 的爬虫自动登录（内附python教程分享）

从图上的框线中我们主要圈出了书名、价格、出版年份、出版社、评分，其中出版年份，出版社以及价格是在一行中，这个我们需要进一步处理。

分页的处理：总记录是250条，每页是25条图书信息，共分了10页。

实现目标一

需要用到的概念：

Item

Item Pipeline

首先建立Scrapy的Item， Scrapy的Item就是我们需要存储的数据结构，先修改items, 然后在spiders目录中新建一个名为bookspider.py的Python文件，由于我们需要在一堆字符串中提取出出版社和价格等信息所以我们这里需要对抓取的内容进一步处理，在这之前还需要修改settings.py文件：

加入faker的模拟USER_AGENT数据防止被豆瓣屏蔽，

也可以设置DEFAULT_REQUEST_HEADERS参数。

修改ITEM_PIPELINES

代码如下所示：

items.py

python基于 Scrapy 的爬虫自动登录（内附python教程分享）