Python爬虫—Scrapy框架—Win10下载安装

1. 下载wheel
2.下载twisted
3. 下载pywin32
4. 下载安装Scrapy
5. 创建一个scrapy项目
6. first.py(cmd中创建的爬虫文件名称)文件详解
7. 运行、日志

什么是框架？
- 就是一个集成了很多功能并且有很强通用性的一个项目模块
如何学习框架？
- 专门学习框架封装的各种功能的详细用法
什么是scrapy框架？
- 爬虫中封装最好的一个明星框架。
  - 功能：
  - 高性能的持久化存储操作，
  - 异步的数据下载，
  - 高性能的数据分析，
  - 分布式

1. 下载wheel

pip install wheel

在这里插入图片描述

2.下载twisted

# 进入下面的网站，搜twisted
https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

# 使用python --verison 查看电脑安装的python版本
# 点击想要现在的版本，就可以直接下载到电脑上面

# 然后在命令窗口输入你下载的路径加文件名
# 我的下载地址为 C:\Users\asus\Downloads
pip install C:\Users\asus\Downloads\Twisted-20.3.0-cp37-cp37m-win_amd64.whl

# 如果在安装过程中报错，说明你下载的文件和系统python不兼容，或者版本不一样（最简单的方法就是再重新试一遍安装，我反正安装了两次才成功安装）
# 此时就想要出现下载其它python对应版本的twiste

在这里插入图片描述

3. 下载pywin32

pip install pywin32
在这里插入图片描述

4. 下载安装Scrapy

pip install scrapy
# 检验scrapy是否成功安装
# 在终端中输入scrapy -h,出现版本号说明安装成功
scrapy -h

在这里插入图片描述

5. 创建一个scrapy项目

# 在cmd命令中，进去想要需要创建工程的文件夹
# 输入下面指令
scrapy startproject 工程名称

# 在spiders文件下创建一个爬虫文件
# 在cmd中输入scrapy genspider 爬虫名 爬取范围域名（可以在后面爬虫的源文件中修改）
scrapy genspider first  www.xxx.com

# 所有操作代码写完后，执行工程
# 在cmd中输入，scrapy crawl 爬虫名
scrapy crawl first
# 输入完后爬虫文件就可以执行

在这里插入图片描述

文件的功能：

文件名称	用途
scrapy.cfg	配置文件
spiders	存放你Spider文件，也就是你爬取的py文件（需要你放入爬虫的源代码）
items.py	相当于一个容器，和字典较像
middlewares.py	定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py	定义Item Pipeline的实现，实现数据的清洗，储存，验证。
settings.py	全局配置（经常使用）

在这里插入图片描述

6. first.py(cmd中创建的爬虫文件名称)文件详解

import scrapy

class FirstSpider(scrapy.Spider):
    # 爬虫文件的名称，在cmd中创建好了，：就是爬虫源文件的唯一标识（不能重复）
    name = 'first'
    # 允许的域名:用来限定start_urls列表中哪些url可以进行请求发送（通常情况下我们不会使用这个allowed_domains）
    allowed_domains = ['www.xxx.com']
    # 起始的url列表，最初在cmd中创建的:该列表中 存放的url会被scrapy自动进行请求发送
    # 可以存在多个url
    start_urls = ['http://www.baidu.com/', 'http://www.sogou.com']

    # start_urls = ['http://www.baidu.com/']

    # 用作于数据解析的，response参数表示的就是请求成功后对应的响应对象
    # parse可以被调用多次，此时是由start_urls中url的个数来决定的
    def parse(self, response):
        print(response)

在这里插入图片描述

7. 运行、日志

在这里插入图片描述

# 运行程序，发现请求成功，并且打印了日志
scrapy crawl first

在这里插入图片描述

如果不需要打印日志，加上–nolog

在这里插入图片描述

此时如果程序运行错误，我们无法定位到错误的位置，所有需要在settings配置文件中加入

LOG_LEVEL = 'ERROR'

在这里插入图片描述

Python爬虫—Scrapy框架—Win10下载安装

Python爬虫—Scrapy框架—Win10下载安装

1. 下载wheel

2.下载twisted

3. 下载pywin32

4. 下载安装Scrapy

5. 创建一个scrapy项目

6. first.py(cmd中创建的爬虫文件名称)文件详解

7. 运行、日志

猜你喜欢