scrapy框架-解决windows安装报错/Ubantu安装与scrapy项目创建

安装scrapye

提示:不管windows/ubantu 下载scrapy需要进入自己的虚拟环境安装scrapy,不使用虚拟环境忽略这个提示... 

windows安装

1. 下载Twisted包 推荐离线安装,在线安装我这里失败报错,所以推荐离线安装,不下载这个会报一个缺少windows的一个工具的错误

       网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

      一定要选择对应的python版本和windows32/64位,否则报错

     下载完成后cmd输入pip install [下载的Twisted路径+Twisted文件全称]

     例如我下载之后,文件在e盘下,那么cmd输入: pip install E:\Twisted-18.7.0-cp36-cp36m-win32.whl

     版本参考如下

2. 通过`pip install scrapy`安装scrapy

3. 还需要安装`pypiwin32`,pip install pypiwin32 即可使用scrapy框架,否则运行scrapy时会报错

 

Ubantu安装

如果是在ubuntu下,还需要安装一些第三方库:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

在pip install scrapy

创建项目与爬虫

创建项目:进入虚拟环境,scrapy startproject [项目名称]  例如scrapy startproject baidudemo

创建爬虫:进入项目目录中,scrapy genspider [爬虫名称] [网址] ,

                  注意爬虫名称不要与项目名称一样,网址中www可以忽略

                  例如:scrapy genspider baidu baidu.com

 

项目目录结构说明

1. items.py:用来存放爬虫爬取下来数据的模型。

2. middlewares.py:用来存放各种中间件的文件。

3. pipelines.py:用来将items的模型存储到本地磁盘中。

4. settings.py:本爬虫的一些配置信息(比如请求头、多久发送一次请求、ip代理池等)。

5. scrapy.cfg:项目的配置文件。

6. spiders包:以后所有的爬虫,都是存放到这个里面。

猜你喜欢

转载自blog.csdn.net/qq_27648991/article/details/81514779