python爬虫基础知识之选择器 - 代码天地

python爬虫基础知识之选择器

其他 2019-01-02 10:31:19 阅读次数: 0

1 选择器

ID

1.1 Class

属性选择器：可以指定值来选择

后代选择器（包含选择器）

子选择器

1.2 Xpath

使用路径表达式在xml中进行导航

1.3 Xpath和css的区别：

Css更简洁

Xpath文件路径，看作目录树

XPath谓语很强大

1.4 Json

类似xml，但是更小更简洁

很方便，把字符串和字典来回切换

2 Xml处理的两种模式dom和sax的优劣

Dom把整个xml读入内存，解析为树，占用内存大，解析慢

Sax流模式，边读边解析，占用内存小，解析快

Xml处理爬虫的三个重要内容：标签，属性，内容，处理方式主要是dom和sax

3 Xml—xpath—dom/sax

3.1 通过dom处理

小文本，处理的方便

#获取根节点

doc=minidom.parse('book.xml')

root=doc.documentElement

print(type(root))

print(dir(root))

print(root.nodeName)

books=root.getElementsByTagName('book')

for book in books:

 titles=book.getElementsByTagName('title')

 prices=book.getElementsByTagName('price')

 title=titles[0].childNodes[0].nodeValue

 price=prices[0].childNodes[0].nodeValue

 print(title,price)

3.2 Sax爬虫

自己维护层级关系

处理大文本效率很高

一开始写DefaultSaxHandler

实现三个方法：start_element, end_element,char_data

4 正则表达式

方便的检查一个字符串是否与某种模式匹配

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

re.match(pattern, string, flags=0)

5 selenium

主要用于测试，简单的爬虫比较合适

用于爬虫的两个命令：find_element(s)_by_tag_name

Find_element(s)_by_css_selector

如果直接用request，不能处理js，也就是不能处理动态网页，而selenium可以动态调动模拟浏览器

猜你喜欢

转载自blog.csdn.net/ElsaRememberAllBug/article/details/78783572

python爬虫基础知识之选择器

Python爬虫之Selector选择器

css3之基础选择器-基础知识整理-web前端寒假总结

前端css基础知识点之selector——选择器

CSS基础知识（1）选择器的介绍

前端基础知识: 2.CSS选择器

jQuery选择器基础知识梳理

jQuery基础知识2--jQuery选择器

css基础知识二选择器

CSS基础知识:选择器分类

CSS-基础知识、语法、选择器、属性

html基础知识（四）：css基础知识(样式+选择器)

Python爬虫之CSS基础知识

Python爬虫框架 scrapy之xpath选择器 css选择器

Python爬虫包 BeautifulSoup 之 CSS 选择器

前端开发之CSS基础知识05-H5新增选择器特性即input理解

Python基础知识之装饰器

Python基础知识之迭代器

python爬虫基础知识

Python爬虫：基础知识

python网络爬虫（XML选择器）

python网络爬虫（CSS选择器）

【爬虫】Python Scrapy Selectors (选择器)

python css选择器 -爬虫坑

python爬虫(一)-------------------css选择器

Python爬虫CSS选择器

前端基础知识学习---CSS3学习（四）伪元素选择器

前端基础知识学习---CSS3学习（三）伪类选择器

前端基础知识学习---CSS3学习（二）属性选择器

前端基础知识学习---CSS3学习（一）基本选择器

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)