利用scrapy框架实现一个简单的爬虫项目 - 代码天地

利用scrapy框架实现一个简单的爬虫项目

其他 2018-10-14 07:45:02 阅读次数: 0

首先简单介绍一下什么是scrapy框架？具体详情见百科！！！

总之，scrapy是一个用于python开发抓取网站网页的框架，更加通俗的讲就是爬虫框架！！！

下面就是利用scrapy爬取web的一个小项目：

爬取的网站：http://books.toscrape.com

import scrapy

class BooksSpider(scrapy.Spider):
    name = 'books'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):

        # 1.提取数据
        for sel in response.css('article.product_pod'):
            #获取书名
            name  = sel.xpath('//h3/a[@title]/text()').extract_first()
            #获取书的价格
            price = sel.css(' p.price_color::text').extract_first()
            #获取书的评分  这里使用到正则匹配标签属性中的评分
            rating = sel.css('p.star-rating').re_first('star-rating (\w+)')

            #把属性封装入字典中
            book = {
                'name':name,
                'price':price,
                'rating':rating,
            }

            yield book

        # 2.提取链接，产生新的请求
        #提取下一页的链接
        next_page = response.css('ul.pager li.next a::attr(href)').extract_first()

        #判断下一页是否存在
        if next_page:
            """
            这里注意urljoin()函数的用法，从相对路径获得绝对路径
            from urlparse import urljoin
           输入： urljoin("http://www.asite.com/folder/currentpage.html", "anotherpage.html")
           输出：'http://www.asite.com/folder/anotherpage.html'
            """
            next_page = response.urljoin(next_page)
            request = scrapy.Request(next_page,callback=self.parse)
            yield request

注意：

1.在终端运行时，输入scrapy crawl books -o books.csv 运行会把获取的结果保存在books.csv文件中。

2.其中使用到了urljoin函数的用法。

3.yield的用法。

猜你喜欢

转载自blog.csdn.net/cai_cai_cai_1992/article/details/82960788

利用scrapy框架实现一个简单的爬虫项目

如何利用scrapy创建一个爬虫项目

初识Scrapy框架（二）——自己实现一个简单爬虫

scrapy爬虫框架（二）：创建一个scrapy爬虫

做一个简单的scrapy爬虫

Python爬虫，利用scrapy来编写一个爬虫！

scrapy的一个简单小项目

一个令人着迷的爬虫框架——Scrapy框架！

利用脚本运行一个Scrapy网络爬虫

Python爬虫之Scrapy框架系列（2）——创建并运行你的第一个Scrapy demo项目

python之Scrapy框架的第一个爬虫

scrapy框架一个相对完善的爬虫

gin框架实现一个简单的项目 ③

规范开始一个scrapy爬虫项目

Scrapy新建一个爬虫项目及环境搭建

Scrapy入门-第一个爬虫项目

如何使用Scrapy 搭建一个爬虫项目

使用scrapy创建第一个爬虫项目

【python实现网络爬虫（5）】第一个Scrapy爬虫实例项目（Scrapy原理及Scrapy爬取名言名句网站信息）

scrapy爬虫笔记（创建一个新的项目并运行） scrapy爬虫笔记（安装）

如何利用spring框架来开发一个简单的小项目——书店项目

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例

Python scrapy框架教学（一）：第一个scrapy爬虫

手把手教你如何新建scrapy爬虫框架的第一个项目（上）

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

简单实现一个爬虫

Java实现一个简单的爬虫

scrapy框架实现爬虫项目演示

如何自己实现一个scrapy框架（一）

scrapy爬虫框架简单入门实例（一）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)