xpath处理html文档

用xpath处理html文件,需要首先将html文件转换成XML文件,然后用xpath查找HTML节点或元素。xpath解析的对象是 <class ‘lxml.etree._Element’> 类型
爬虫中网页处理有两种方式:
1 再爬虫中,数据获取和数据清洗议题,用HTML()
2 数据获取和数据清洗分开,parse()及将本地的html文件进行清洗

数据获取和数据清洗议题,用HTML()

import requests
from lxml import etree

page_info = requests.get("https://www.liepin.com/zhaopin/?init=1&imscid=R000000058&d_sfrom=search_fp_bar&key=%E8%B4%A8%E9%87%8F").content.decode()
# print(type(page_info))
p

猜你喜欢

转载自blog.csdn.net/Mwyldnje2003/article/details/103543877