Scrapy爬虫框架的使用 - 代码天地

Scrapy爬虫框架的使用

其他 2019-12-24 17:34:13 阅读次数: 0

#_author:来童星
#date:2019/12/24
# Scrapy爬虫框架的使用
#1.安装Twisted模块    https://www.lfd.uci.edu/~gohlke/pythonlibs/
#2.单击Twisted索引
import scrapy
from scrapy.crawler import CrawlerProcess
# 导入获取项目设置信息
from scrapy.utils.project import get_project_settings
class QuotesSpider(scrapy.Spider):
    name='quotes'# 定义爬虫名称
    def start_requests(self):
        # 设置爬虫目标的地址
        urls=['http://quotes.toscrape.com/page/1/',
              'http://quotes.toscrape.com/page/2/'

        ]
        #获取所有地址，有几个地址发送几次请求
        for url in urls:
            #发送网络请求
            yield scrapy.Request(url=url,callback=self.parse)
    def parse(self, response):
        #获取页数
        page=response.url.split('/')[-2]
        # 根据页数设置文件名称
        filename='quotes-%s.html'%page
        #写入文件的模式打开文件，如果没有该文件则创建文件
        with open(filename,'wb')as f:
            # 向文件中写入获取的html代码
            f.write(response.body)
            #输出保存文件的名称
        self.log('saved file %s'%filename)
if __name__=='__main__':
    #创建CrawlerProcess类对象并传入项目设置信息参数
    process=CrawlerProcess(get_project_settings())
    # 设置需要启动的爬虫名称
    process.crawl('quotes')
    process.start()

猜你喜欢

转载自www.cnblogs.com/startl/p/12092627.html

Scrapy爬虫框架的使用

爬虫框架Scrapy 的使用

Scrapy框架的使用之Scrapy通用爬虫

【爬虫框架-scrapy】scrapy工具的使用

爬虫scrapy框架安装使用

使用Scrapy框架爬虫实例

Python爬虫框架Scrapy的使用

004 使用scrapy框架爬虫

Scrapy爬虫框架基本使用

使用Scrapy框架编写爬虫

【爬虫框架】Scrapy基本使用

python爬虫 scrapy爬虫框架的基本使用

web爬虫讲解—Scrapy框架爬虫—Scrapy使用

Python的网络爬虫框架-Scrapy爬虫框架的使用

Python使用Scrapy框架爬虫（一）

python使用Scrapy框架进行爬虫编程

Scrapy爬虫框架的安装和使用

Python Scrapy爬虫框架之初次使用

Python爬虫--使用scrapy框架(1)

Python爬虫--使用scrapy框架(2)

python爬虫练习(使用scrapy框架)

python爬虫框架--scrapy 基本使用

python爬虫笔记（七）:使用Scrapy框架

使用scrapy框架搭建爬虫的方法

python 爬虫 scrapy框架的详细使用

python 爬虫 scrapy框架的使用一

使用scrapy爬虫框架批量下载图片

Python爬虫 --- 2.3 Scrapy 框架的简单使用

scrapy爬虫框架简绍与安装使用

Python爬虫之Scrapy框架使用selenium

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)