scrapy中XMLFeedSpider - 代码天地

scrapy中XMLFeedSpider

其他 2019-04-20 23:18:06 阅读次数: 0

爬取案例：

目标网站：

url = 'http://www.chinanews.com/rss/scroll-news.xml'

页面特点：

先创建爬虫项目：

也可以查看爬虫类：

创建xmlFeed 爬虫可以用：

scrapy genspider -t xmlfeed cnew  chinanews.com

2. 或可以先创建普通爬虫，再将普通的scrapy爬虫类改为XMLFeedSpider 爬虫类

该爬虫代码：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import XMLFeedSpider
from ..items import FeedItem
class NewsSpider(XMLFeedSpider):
    name = 'news'
    #allowed_domains = ['www.chinanews.com']
    start_urls = ['http://www.chinanews.com/rss/scroll-news.xml']
    #iterator = 'itetnodes'
    #itertag = 'item'


    def parse_node(self, response, node):

        # item = FeedItem()
        item ={}
        item['title'] = node.xpath('title/text()').extract_first()
        item['link'] = node.xpath('link/text()').extract_first()
        item['desc'] =node.xpath('description/text()').extract_first()
        item['pub_date'] = node.xpath('pubDate/text()').extract_first()

        print(item)

        yield item

3. 将settings中的配置

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

4. 启动爬虫

scrapy crawl news --nolog

5.爬取效果

猜你喜欢

转载自www.cnblogs.com/knighterrant/p/10743180.html

scrapy中XMLFeedSpider

Scrapy 爬虫模板--XMLFeedSpider

Scrapy框架: 通用爬虫之XMLFeedSpider

CrawlSpider和XMLFeedSpider

【Spider】学习使用XMLFeedSpider

scrapy中的settings设置

scrapy中xpath的用法

Anaconda中安装Scrapy

Scrapy 中 log 功能

PyCharm中Scrapy的安装

Ubuntu中scrapy 的安装

python中scrapy的学习

Python中Scrapy的使用

scrapy 中遇到的问题

scrapy中selenium的应用

Hbase在Scrapy中的应用

Pycharm中的scrapy安装

selenium在scrapy中的应用

scrapy xpath()中的/与//的区别

Scrapy框架中的CrawlSpider

爬虫中的scrapy框架

Scrapy中的Spider Middleware

Scrapy中的Downloader Middleware

scrapy 中crawlspider 爬虫

Scrapy中的Selector

scrapy中的middleware

Scrapy 中 settings 配置

Scrapy中的翻页

Scrapy中CrawlSpider

scrapy中Crawlspider的用法

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)