spider----xpath学习 - 代码天地

spider----xpath学习

其他 2018-11-07 21:06:05 阅读次数: 0

版权声明：个人原创，所属@jerry 本人 https://blog.csdn.net/qq_42938842/article/details/83590914

xpath语法:
1. 常用的路径表达式
  1. / 从根节点 ---- // 从任意位置开始查找
  2. . 从当前节点查找 ----- .. . 从当前节点的父节点查找
  3. @ 选取标签属性
  4. bookstore/book[1] 取出符合要求的第一本book，下标从1开始
  5. bookstore/book[last()] 取出最后一本book
  6. bookstore/book[last()-1] 取出倒数第二本book
  7. bookstore/book[position()<3] 取出前两本book
  8. //book/title | //book/price 两个结果或起来
  9. //title[@lang] 所有拥有lang属性的title节点

谷歌插件的使用

谷歌浏览器插件的使用
		启动和关闭：ctrl+shift+x
	（1）属性筛选
		//input[@id="kw"]
		//span[@class="bg s_ipt_wr quickdelete-wrap"]
	（2）层级和索引选择
		//a[@class="mnav"][position()<3]
		//a[@class="mnav"][last()]
		//a[@class="mnav"][1]
		//div[@id="head"]/div/div[3]/a[2]
		//div[@id="head"]/div/div[@id="u1"]/a[2]
		//div[@id="head"]/div//a[@class="mnav"][2]
	（3）获取属性-获取文本
		//div[@id="head"]/div//a[@class="mnav"][2]/@href
		//div[@id="head"]/div//a[@class="mnav"][2]/text()
	（4）函数
		starts-with
			//div[@id="u1"]/a[starts-with(@href,"https")]
			//div[@id="u1"]/a[starts-with(text(),"地")]
		contains
			//div[@id="u1"]/a[contains(text(),"多产")]
			//div[@id="u1"]/a[contains(@href,"www")]
	谷歌浏览器自带xpath
		//*[@id="u1"]/a[2]
		//*[@id="result_logo"]/img[1]
		#result_logo > img.index-logo-src
	xpath在代码中的应用
	（1）可以解析本地文件
		from lxml import etree
		tree = etree.parse(文件名)
		ret = tree.xpath('路径表达式')
		返回的是一个列表
	（2）可以解析网络文件
		tree = etree.HTML(网络文件字符串内容)

xpath简单使用:

from lxml import etree

tree = etree.parse('xpath.html')

# print(tree)
# ret = tree.xpath('//li[@id="jun"]')

# print(ret)
ret = tree.xpath('//div[@class="xiandai"]')
print(ret)

猜你喜欢

转载自blog.csdn.net/qq_42938842/article/details/83590914

spider----xpath学习

Spider学习笔记（一）:xpath基础操作

Spider-scrapy 中的 xpath 语法与调试

【Spider】学习使用XMLFeedSpider

scrapy学习之spider

xpath学习

xpath的学习

学习XPath

爬虫Spider 03 - requests模块 | xpath解析 | lxml解析库

Spider学习笔记（八）:matplotlib

scrapy 4 学习 crawl spider

spider

学习爬虫1之python学习spider

Spider第二天-cookie和代理、正则表达式、xpath解析、xpath表达式

xpath学习，通过xpath查找指定的元素

xpath学习二

XPath学习笔记

python xpath学习总结

python学习-----xpath用法

XPath定位学习记录

xpath基础学习

XPath学习笔记（二）

XPath学习笔记（一）

XPath注入漏洞学习

Scrapy学习-25-Scrapyd部署spider

Spider学习笔记（十一）:获取图片并下载

Spider学习笔记（七）:词云（wordcloud）

Spider学习笔记（六）:爬虫部署

Python web学习 spider小例子

spider ----CrawlSpider学习,及分布式redis

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)