scrapy爬虫安装及环境配置和出现的问题(历史最详细)

scrapy是基于python的开源爬虫框架,功能极其强大,扩展性好,几十行代码就可以实现强大的python爬虫。

自己在windos下进行的安装,出现无数次ng,下面会有指出。


安装前提要求:

1.python安装好,并配置好环境配置。这里我是用的python3.6

2.python已经安装好了虚拟环境。对于虚拟环境不懂得可以搜索python虚拟环境(virtualenv)配置或者通过pycharm进行虚拟环境搭建。

3.pip安装   

进入cmd 安装pip  
python get-pip.py 

4.Microsoft Visual C++ 14 以上,可以在控制面板里面查看是否已经安装,


不然会安装会以下报错误

building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

    环境依赖于 microsoft visual C++ 14.0, 仔细看报错后面还写着该C++库的下载地址;

扫描二维码关注公众号,回复: 2403629 查看本文章


5.scrapy依赖的whl  twisted、lxml、pywin32。这里这里涉及到下载地址的问题,非常影响下载速度。建议使用豆瓣源

   https://pypi.douban.com/simple/

    (一)twisted安装

pip install -i https://pypi.douban.com/simple/ Twisted

    如果还出错,到

   http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 

下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行命令:

pip install D:\TDownloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl

   随便找一个.whl安装包下载,安装,又会碰到一些问题:

  1. 提示pip需要升级,根据它给的建议升级
  2. 提示[filename.whl is not supported wheel on this platform]
    如果还提示不支持platform,就把win32和win64的版本都下下来分别试一下,我的系统是64位但是装32位的whl才能成功

    

(二)lxml安装

pip install -i https://pypi.douban.com/simple/ lxml
但是还是有可能遇到很多坑,建议手动安装

    https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

版本选择同上面的Twisted。
    
(三) pywin32安装

     一般不会报错

Pip install -i https://pypi.douban.com/simple/ pypiwin32 

安装Scrapy:

Pip install -i https://pypi.douban.com/simple/ scrapy

这个时候可以运行 

 pip list

可以看到安装在虚拟环境里的模块。


也可以进入所属虚拟环境目录里script下面看看是否存在


安装完成后即可创建scrapy项目

scrapy项目创建

1、创建项目

运行命令:

2.自动创建目录的结果:通过pycharm打开


文件说明:

  • scrapy.cfg  项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
  • items.py    设置数据存储模板,用于结构化数据,如:Django的Model
  • pipelines    数据处理行为,如:一般结构化的数据持久化
  • settings.py 配置文件,如:递归的层数、并发数,延迟下载等
  • spiders      爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名


猜你喜欢

转载自blog.csdn.net/gty931008/article/details/80257091