爬虫总结3 - 代码天地

爬虫总结3

其他 2018-12-03 11:33:47 阅读次数: 0

1. xpath语法

//div[@id='xx']/../*[last()]/a[2]/@href
	# id是xx的div的父一级标签下的所有标签中最后一个标签下的第二个a标签的名为href属性的值
/html//a[text()="xxx"]/./text()
	# html下文本内容是xxx的所有a标签下的当前标签（就还是那个a标签）的文本内容

2. lxml模块的使用

from lxml import etree
html_element = etree.HTML(html_str)
rets = html_element.xpath('xpath_str')
# rets返回list or []
# 如果xpath_str是定位标签元素，构成rets这个列表中的每个元素都是一个element对象，可以继续xpath!
# 如果xpath_str是提取@属性或文本()，就返回由字符串构成的列表！

3. lxml模块使用注意：

# lxml.etree.HTML()会修改html_str
# 爬虫提取数据要以lxml.etree.tostring()返回结果为准！

4. json模块

json.dumps # python数据类型-->json_str
json.loads # json_str-->python数据类型
json.dump # python数据类型-->写入类文件对象
json.load # 类文件对象 读出-->python数据类型

5. jsonpath模块

from jsonpath import jsonpath
rets = jsonpath(python数据类型, '$..xxx')
# python数据类型中不管位置，只要key是xxx就把值放到list中返回
# 批量快速提取某个指定key的值！

6. 关于原始字符串r

a = '\n' # a是换行符！
b = r'\n' # b只是\n，不是换行符！

7. 响应内容分类

结构化 
	json 
		json模块
		jsonpath
		re 
	xml
		lxml(xpath)
		re
非结构化 html
		lxml(xpath)
		re

猜你喜欢

转载自blog.csdn.net/u012087012/article/details/84751340

爬虫总结3

爬虫基础总结3

3.爬虫 urlib库讲解总结

爬虫总结

爬虫-3

爬虫3-爬虫防范

python---爬虫[3]：爬虫与反爬虫

Python爬虫从入门到精通(3): BeautifulSoup用法总结及多线程爬虫爬取糗事百科

股票爬虫项目总结

最全Python爬虫总结

Python爬虫总结

爬虫问题总结

python爬虫面试总结

python爬虫知识总结

爬虫----代码段总结

爬虫经验小总结

python笔记--爬虫总结

python 爬虫总结

简单爬虫总结

爬虫总结1

OJ系统爬虫总结

爬虫总结13

爬虫总结11

爬虫总结9

爬虫总结8

爬虫总结5

爬虫总结4

爬虫总结12

爬虫总结6

爬虫总结7

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)