python scrapy 基本操作演示代码 - 代码天地

python scrapy 基本操作演示代码

其他 2018-10-21 13:38:24 阅读次数: 0

# -*- coding: utf-8 -*-
import scrapy
# from quotetutorial.items import QuoteItem
from quotetutorial.items import QuotetutorialItem

# 主要编辑项目信息基本上都在在这里完成的

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    # 爬取信息
    def parse(self, response):
        # pass
        # 打印源代码
        # print(response.text)
        quotes = response.css('.col-md-8 .quote')
        for quote in quotes:
            item = QuotetutorialItem()
            text = quote.css('.text::text').extract_first()
            author = quote.css('.author::text').extract_first() # 只提取一个内容 类似于 findone
            tags = quote.css('.tags .tag::text').extract() # 提多多个内容 类似于 findall
            item['text'] = text
            item['author'] = author
            item['tags'] = tags
            yield item
        next = response.css('.pager .netxt a::attr(href)').extract_first() # 选择下一页
        url = response.urljoin(next) # 因为获取的地址不完整，获取完整的网址加内容连接地址
        yield scrapy.Request(url=url,callback=self.parse()) # 从新调用自己并翻页
# 保存文件
# scrapy crawl quotes -o quotes.json
# scrapy crawl quotes -o quotes.jl
# scrapy crawl quotes -o quotes.csv
# scrapy crawl quotes -o quotes.xml
# scrapy crawl quotes -o ftp://user:[email protected]/path/quotes.csv

猜你喜欢

转载自www.cnblogs.com/wordgao/p/9824658.html

python scrapy 基本操作演示代码

Python爬虫 - scrapy框架的基本操作

Python——记Scrapy的基本使用

Python爬虫框架Scrapy入门（一）Scrapy安装及基本使用

python 爬虫框架scrapy的安装以及基本操作

实例演示Scrapy的基本用法

scrapy Python

Python Scrapy

python爬虫框架--scrapy 基本使用

python爬虫之scrapy（基本介绍）

Python-scrapy创建基本项目

Python爬虫之Scrapy框架的基本使用

Python:爬虫框架Scrapy的安装与基本使用

Python的爬虫框架Scrapy基本使用

python爬虫Scrapy框架的基本结构讲解

python爬虫 scrapy爬虫框架的基本使用

python爬虫利器之scrapy的基本教程

python Scrapy创建和使用，运行Scrapy代码，怎么用Scrapy框架获取数据，Scrapy的xpath使用教程。

python scrapy爬虫代码及填坑

Scrapy基本操作流程

scrapy基本操作

python爬虫基础（14：Scrapy框架之项目演示）

python爬虫笔记（七）——scrapy文档阅读（一）——scrapy的基本使用

python实战笔记之（13）：Scrapy基本用法实例讲解

Python网络爬虫之scrapy爬虫的基本使用

python爬虫系列（三）scrapy基本概念

python3爬虫开发 Scrapy的使用基本知识

Python3.6下安装Scrapy框架及其基本使用

Python 爬虫框架Scrapy的安装与基本使用（入门）

Python Scrapy 框架的入门-基本使用+案例下载

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)