Scrapy的【SitemapSpider】的【官网示例】没有name属性 - 代码天地

Scrapy的【SitemapSpider】的【官网示例】没有name属性

其他 2018-07-01 14:04:33 阅读次数: 0

Windows 10家庭中文版，Python 3.6.4，Scrapy 1.5.0，

上午看了Scrapy的Spiders官文，并按照其中的SitemapSpider的示例练习，发现官文的示例存在问题——SitemapSpider下的Spider类没有name属性。

这导致孤编写的测试程序也没有name属性，结果，执行失败：No spider found in file

第一次执行使用的是runspider命令，失败；

第二次使用的是crawl命令——提前将爬虫文件放到某个Scrapy项目的spiders目录下，失败；

后来想起官文开始对于name属性的介绍：必须有的！

This is the most important spider attribute and it’s required.

那么，在爬虫程序中添加name属性，然后再用runspider命令执行，成功，得到了想要的信息。

关于Sitemaps的信息请参考：

What are Sitemaps? 和 Sitemap protocol

注意，并非每一个网站都有Sitemaps文件，当网站不存在Sitemaps文件时，无法用SitemapSpider抓取信息——主要抓取的是网站的链接（大型网站会有很多）。当然，按照官文的介绍，使用网站的robots.txt文件也可以（还需测试）。

孤的爬虫在测试网站发现了579个网页是使用Ctrl+C终止了爬虫的运行，否则，还会有更多：

SitemapSpider有什么用呢？

抓取了网站所有【允许爬虫抓取的（Sitemap协议、robots协议）】链接，然后，再抓取各个链接中的内容。

关于robots协议：Robots exclusion standard 和 robots协议

下面是一些网站的sitemap.xml或robots.txt截图：

发现很多网站时有robots.txt的，而没有sitemap.xml（或者我路径不对？），是因为robots协议是更先进的版本吗？

-微博几乎禁止了所有的爬虫程序去爬取其数据：

后记

SitemapSpider爬取了网站的链接后，是否可以交给其它爬虫程序处理？

在使用scrapy genspider创建爬虫程序时，没有名为sitemap*的模板：

猜你喜欢

转载自www.cnblogs.com/luo630/p/9249885.html

Scrapy的【SitemapSpider】的【官网示例】没有name属性

span没有name属性

Scrapy 爬虫模板--SitemapSpider

企业官网示例

Scrapy框架: 通用爬虫之SitemapSpider

maven中引用官网没有的jar包

Vue官网todoMVC示例

MuJS官网示例讲解

vue的计算属性（官网）

Scrapy没有Log输出

Scrapy（官网 http://scrapy.org/）爬虫（一）

mongoDB官网中Storing Log Data的python示例代码有误，

maven向本地仓库导入jar包（处理官网没有的jar包）

maven向本土仓库导入jar包（处理官网没有的jar包）

向本地仓库导入maven官网没有的jar包

mozilla官网没有html5和css3Chq3

.net mvc 使用ueditor的开发（官网没有net版本？）

STM32L4xx standard peripherals library想找这个，居然官网没有。

vue-player 官网demo示例

注解属性没有提示

YAML格式官网示例 - : # [ ] { } --- ... & * ? > | " " ' ' !! !

Redux官网Counter最基本示例的思考

企业官网示例以及数据库表结构

报表如何集成 echarts 官网示例图

Angular官网教程示例知识点总结

SparkSQL官网Java示例ERROR CodeGenerator: failed to compile问题

判断有没有网

Android 判断有没有网

有关vue官网教程

企业官网有什么作用？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)