lxml和xpath结合使用 - 代码天地

lxml和xpath结合使用

其他 2018-06-18 09:53:11 阅读次数: 2

lxml和xpath结合使用主要有以下5个方面内容：

# 1.获取所有的tr标签
# 2.获取第2个标签
# 3.获取所有class 等于event的tr标签
# 4.获取所有a标签下的href属性
# 5.或许所有的职位信息（纯文本）

实例代码如下：

# -- coding:utf-8 --
from lxml import etree

parser = etree.HTMLParser(encoding="utf-8")
html = etree.parse("baudu.html", parser=parser)

# 1.获取所有的tr标签
# //tr
# xpath返回的是一个列表
def return_trs():
    trs = html.xpath("//tr")
    for tr in trs:
        print tr

# 2.获取第2个标签
def return_tr():
    tr = html.xpath("//tr[2]")[0]
    print type(tr)
    print tr
    print etree.tostring(tr, encoding="utf-8").decode("utf-8")

# 3.获取所有class 等于event的tr标签
def class_tr():
    trs = html.xpath("//tr[@class='event']")
    print trs

# 4.获取所有a标签下的href属性
def a_href():
    aLists = html.xpath("//a/@href")
    for a in aLists:
        print a
        print "D:\\Python2.7\\"+a

# 5.或许所有的职位信息（纯文本）
positions = []
def position_text():
    trs = html.xpath("//tr[position()>1]")
    for tr in trs:
        # 在某个标签下执行xpath函数，获取这个标签下的子孙元素，那么在“//”前面加一个“.”，即“//.”
        herf = tr.xpath(".//a/@href")[0]
        fullurl = "http://"+herf
        title = tr.xpath("./td[1]//text()")
        category = tr.xpath("./td[2]//text()")
        nums = tr.xpath("./td[3]//text()")
        address = tr.xpath("./td[4]//text()")
        pubtime = tr.xpath("./td[5]//text()")

        position = {
            "url": fullurl,
            "title": title,
            "category": category,
            "nums": nums,
            "address": address,
            "pubtime": pubtime
        }
        positions.append(position)

def main():
    position_text()
    print positions
    # a_href()
    # class_tr()
    # return_trs()
    # return_tr()


if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/qq_42281053/article/details/80665242

lxml和xpath结合使用

lxml中的Xpath的使用

Python爬虫从入门到精通基础篇(05)P20-P23lxml和xpath结合使用详解lxml库xpath简介以及工具安装xpath语法详解

python的lxml和xPath用法

xpath和lxml类库

XPath语法和lxml模块

爬虫网页分析——XPath与lxml的使用

Python爬虫 XPath语法和lxml模块

四、Python3 lxml和Xpath

Python爬虫之lxml库和XPath

xpath语法和lxml库的学习

爬虫笔记：xpath和lxml（十二）

Python爬虫教程-22-lxml-etree和xpath配合使用

python爬虫系列(3.4-使用xpath和lxml爬取伯乐在线)

Python3：使用lxml库来解析xml文件和html文件(使用xpath方式解析)

使用 lxml 中的 xpath 高效提取文本与标签属性值

【爬虫】使用xpath与lxml移除特定标签

Python爬虫基础——XPath语法的学习与lxml模块的使用

python 使用xpath/lxml爬取网页表格并存CSV

Python《使用lxml解析xpath--爬取konachan》

python爬虫之Xpath和lxml学习笔记03

python3之lxml、css和xpath

数据解析之XPath语法和lxml模块

xpath语法和lxml模块（数据提取）----python爬虫学习

python爬虫之xpath和lxml解析内容

爬虫（7） lxml和xpath2020-12-28

XPath与lxml类库

lxml的XPath解析

XPATH(lxml)爬虫测试

Xpath语法与lxml库

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)