python 爬虫(二) 使用scrapy初始化一个爬虫

1.使用spyder 新建一个空项目
2.在Anaconda Prompt下 进入项目所在目录 输入 scrapy startproject [项目名]
将会生成如下 目录结构目录结构
spiders 里边主要放我们的爬虫文件现在还没有
items.py里边写 我们要保留的字段 就是爬到的那些数据要存
middlewares.py 中间件 用于扩展Scrapy功能 进阶只是 前期并不是很需要
pipelines.py主要用于 文件储存
settings.py 放一些全局设置 用到的时候慢慢解释
3. 在spiders 中新建一个爬虫文件 sina.py

import scrapy
class sinaSpider(scrapy.Spider):
    name='sina' #爬虫的名字
    allowed_domains='tech.sina.com.cn';  #爬虫的域名
    start_urls=['http://tech.sina.com.cn/focus/finance_report/?qq-pf-to=pcqq.c2c'] #爬虫的初始url 入口

    def parse(self, response): #默认的回调处理函数 
        u=response.body
        print(u)

爬虫会从start_urls 开始获取响应 获取到响应之后进入 parse 处理

4.在命令行下输入

scrapy crawl sina

即可看到控制台输出 获取的html

猜你喜欢

转载自blog.csdn.net/lkjasdgfh/article/details/80188592