scrapy是基于python的开源爬虫框架,功能极其强大,扩展性好,几十行代码就可以实现强大的python爬虫。
自己在windos下进行的安装,出现无数次ng,下面会有指出。
安装前提要求:
1.python安装好,并配置好环境配置。这里我是用的python3.6
2.python已经安装好了虚拟环境。对于虚拟环境不懂得可以搜索python虚拟环境(virtualenv)配置或者通过pycharm进行虚拟环境搭建。
3.pip安装
进入cmd 安装pip
python get-pip.py
4.Microsoft Visual C++ 14 以上,可以在控制面板里面查看是否已经安装,
不然会安装会以下报错误
building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
环境依赖于 microsoft visual C++ 14.0, 仔细看报错后面还写着该C++库的下载地址;
5.scrapy依赖的whl twisted、lxml、pywin32。这里这里涉及到下载地址的问题,非常影响下载速度。建议使用豆瓣源
https://pypi.douban.com/simple/
(一)twisted安装
pip install -i https://pypi.douban.com/simple/ Twisted
如果还出错,到
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行命令:
pip install D:\TDownloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
随便找一个.whl安装包下载,安装,又会碰到一些问题:
- 提示pip需要升级,根据它给的建议升级
- 提示
[filename.whl is not supported wheel on this platform]
(二)lxml安装
pip install -i https://pypi.douban.com/simple/ lxml
但是还是有可能遇到很多坑,建议手动安装
一般不会报错
Pip install -i https://pypi.douban.com/simple/ pypiwin32
安装Scrapy:
Pip install -i https://pypi.douban.com/simple/ scrapy
这个时候可以运行
pip list
可以看到安装在虚拟环境里的模块。
也可以进入所属虚拟环境目录里script下面看看是否存在
安装完成后即可创建scrapy项目
scrapy项目创建
1、创建项目
运行命令:
1
|
scrapy
startproject
p1(
your_project
_name)
|
2.自动创建目录的结果:通过pycharm打开
文件说明:
- scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
- items.py 设置数据存储模板,用于结构化数据,如:Django的Model
- pipelines 数据处理行为,如:一般结构化的数据持久化
- settings.py 配置文件,如:递归的层数、并发数,延迟下载等
- spiders 爬虫目录,如:创建文件,编写爬虫规则
注意:一般创建爬虫文件时,以网站域名命名