Python——爬虫scrapy

JSON:爬取文本信息的存储格式

XPath:爬取html文本的工具

  • 概念:

  • 实战:

1./text():提取标签文本内容

2.Extract():详细信息

Scrapy库

1.原理:

2.安装

3.使用:爬取静态页面:北邮的所有教学学院

4.实战:

①爬取多页信息:

5.各个scrapy组件的定义情况:

①items:声明爬取元素的存储键

②ppipelines:打开设置存放数据结果的文件

③setting:更改设置文件

④Begin.py:pycharm专用执行scrapy项目命令行

(fuck_l 是爬虫名字,在spider文件中定义)

发布了86 篇原创文章 · 获赞 0 · 访问量 3966

猜你喜欢

转载自blog.csdn.net/qq_35706707/article/details/103062779