Scrapy框架: 通用爬虫之XMLFeedSpider - 代码天地

Scrapy框架: 通用爬虫之XMLFeedSpider

其他 2019-11-16 17:50:47 阅读次数: 0

步骤01: 创建项目

scrapy startproject xmlfeedspider

步骤02: 使用XMLFeedSpider模版创建爬虫

scrapy genspider -t xmlfeed jobbole jobbole.com

步骤03: 修改items.py

import scrapy

class JobboleItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 文章标题
    title = scrapy.Field()
    # 发表日期
    public_date = scrapy.Field()
    # 文章链接
    link = scrapy.Field()

步骤04: 配置爬虫文件jobbole.py

# -*- coding: utf-8 -*-
from scrapy.spiders import XMLFeedSpider
# 导入item
from xmlfeedspider.items import JobboleItem

class JobboleSpider(XMLFeedSpider):
    name = 'jobbole'
    allowed_domains = ['jobbole.com']
    start_urls = ['http://top.jobbole.com/feed/']
    iterator = 'iternodes'  # 迭代器，不指定的话默认是iternodes
    itertag = 'item'  # 抓取item节点

    def parse_node(self, response, selector):
        item = JobboleItem()
        item['title'] = selector.css('title::text').extract_first()
        item['public_date'] = selector.css('pubDate::text').extract_first()
        item['link'] = selector.css('link::text').extract_first()
        return item

猜你喜欢

转载自www.cnblogs.com/hankleo/p/11872571.html

Scrapy框架: 通用爬虫之XMLFeedSpider

Scrapy 爬虫模板--XMLFeedSpider

Scrapy框架: 通用爬虫之CSVFeedSpider

Scrapy框架: 通用爬虫之CrawlSpider

Scrapy框架: 通用爬虫之SitemapSpider

Scrapy框架的使用之Scrapy通用爬虫

爬虫框架之Scrapy

爬虫之 scrapy框架

爬虫框架之——Scrapy

爬虫之scrapy框架

[爬虫框架scrapy]scrapy的安装

爬虫框架Scrapy 之(一) --- scrapy初识

爬虫框架Scrapy 之(二) --- scrapy文件

爬虫(十八)：Scrapy框架(五) Scrapy通用爬虫

爬虫框架之scrapy 爬虫框架之Scrapy

Python之Scrapy爬虫框架

scrapy爬虫框架之ImagePipeline

爬虫scrapy框架之CrawlSpider

Python之scrapy框架爬虫

scrapy框架之定时爬虫

5 爬虫之scrapy框架

爬虫系列之Scrapy框架

爬虫之Scrapy框架介绍

python爬虫之Scrapy框架

爬虫框架之Scrapy（二）

爬虫框架之Scrapy(一)

爬虫之 scrapy 框架总结

爬虫之scrapy框架（二）

Python 爬虫之scrapy 框架

基于scrapy与xslt的通用爬虫框架

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)