JSON:爬取文本信息的存储格式
XPath:爬取html文本的工具
-
概念:
-
实战:
1./text():提取标签文本内容
2.Extract():详细信息
Scrapy库
1.原理:
、
、
2.安装
3.使用:爬取静态页面:北邮的所有教学学院
、
4.实战:
①爬取多页信息:
5.各个scrapy组件的定义情况:
①items:声明爬取元素的存储键
②ppipelines:打开设置存放数据结果的文件
③setting:更改设置文件
④Begin.py:pycharm专用执行scrapy项目命令行
(fuck_l 是爬虫名字,在spider文件中定义)