实战--Scrapy框架爬去网站信息 - 代码天地

实战--Scrapy框架爬去网站信息

其他 2018-11-14 13:41:27 阅读次数: 0

Scrapy的框架图

一、使用Strapy抓取网站一共需要四个步骤：

(1)创建一个Scrapy项目；

(2)定义Item容器；

Item是保存爬取到的数据的容器，其使用方法和python字典类似，并且提供了额外保护机制来i避免拼写错误导致的未定义字段。

(3)编写爬虫；

：在新建的dmoz_spider.py里面填写代码

：在cmd控制器里面爬取，输入以下代码两句代码

：爬取结果

:再次编辑item.py,下图是理论基础

在cmd的控制器下进入shell,输入以下语句，其中的链接就是我所要爬取的其中一个页面

输出结果如下即为正确：

然后再箭头所指处可以输入response.body,就可以看到网页的所有内容，输入response.headers,就可以看到网页的头，但是想在网页的内容中找到自己想要的，就必须利用Selector选择器中的方法，例如XPath,XPath是一门再网页中查找特定信息的语言。所以用XPath来筛选数据，要比使用正则表达式容易些。如下图：

得到一个列表，对列表字符串化时利用extract(),如果只想要title里面的文字，直接在title后面加/text(),结果如下：

通过网站的审查元素我们可以知道，我们所需要的网站描述性内容都在ul中的li标签下，所以在cmd控制器下输出代码进行查找，如下图：

想看到标签里面的内容，如下：

如果想得到网站的标题，根据审查元素可以看到它们是在a标签下，具体执行如下：结果都是二进制显示

如果想获得所有网址的链接，具体执行如下：

下面是循环输出title

爬取指定位置的信息，修改dmoz_spider.py

在cmd控制器中输入scrapy crawl dmoz

爬取结果如下：

标题-链接-描述，由于是中文的原因，没有显示出来

(4)存储内容。

修改dmoz_spider.py,修改如下：

然后再cmd控制器下输入，如下图所示的第一行代码进行保存，-o后面是文件名，-t后面是保存的文件形式

然后再tutorial根目录下找到items.json，用记事本打开，里面就是我爬取的内容，有title标题,link链接,desc描述

到此，基于Scrapy框架的网页爬取就结束了。希望对各位有所帮助！

猜你喜欢

转载自blog.csdn.net/weixin_39338645/article/details/83108978

实战--Scrapy框架爬去网站信息

#scrapy实战# 爬取招标网站信息(一)

Scrapy框架——CrawlSpider爬取某招聘信息网站

scrapy框架-------------------------------------------------------坑里爬来爬去

python3+Scrapy爬虫实战（三） —— 使用代理IP，爬取“去哪儿”景点信息

使用scrapy爬government网站受理信息

爬虫框架之Scrapy——爬取某招聘信息网站

python 爬虫如何通过scrapy框架简单爬取网站信息--以51job为例

scrapy框架爬取智联招聘网站上深圳地区python岗位信息。

Scrapy框架实战（一）：爬取知名技术文章网站

scrapy框架爬取小说信息

Python爬虫实战+Scrapy框架爬取当当网图书信息

Scrapy ：爬取培训网站讲师信息

scrapy爬取爱上租网站的房源信息（一）

使用Scrapy爬取图书网站信息

【实战】scrapy-redis + webdriver 爬取航空网站

Python之Scrapy爬虫实战--绕过网站的反爬

scrapy框架规则爬取政务网站案例

利用scrapy框架递归爬取菜谱网站

爬虫Scrapy框架-2爬取网站视频详情

使用scrapy框架爬取带反盗链网站的图片

Scrapy框架——CrawlSpider爬取某热线网站

requests + re 爬去网站图书信息（Python）

[Python爬虫]Scrapy框架爬取bilibili个人信息

使用Scrapy框架爬取360摄影图片的信息

Python爬虫框架Scrapy爬取企业信息

Python爬虫框架Scrapy爬取腾讯社招信息

使用scrapy框架爬取腾讯招聘信息

【scrapy框架】王者荣耀英雄信息爬取 python爬虫

Scrapy框架实例（爬取刺猬实习职位信息）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)