数据清洗：利用lxml移除html中的元素 - 代码天地

数据清洗：利用lxml移除html中的元素

其他 2020-04-22 08:33:36 阅读次数: 0

有一段html文本

<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        <div>要移除的内容</div>
    </body>
</html>

我希望把 <div>要移除的内容</div> 移除

安装lxml

pip install lxml

代码实例

# -*- coding: utf-8 -*-

from lxml import etree

text = """
<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        <div>要移除的内容</div>
    </body>
</html>"""

tree = etree.fromstring(text)

# 返回一个列表
remove_tags = tree.xpath('//div[last()]')

if remove_tags:
    remove_tag = remove_tags[0]
    remove_tag.getparent().remove(remove_tag)

print(etree.tounicode(tree))
"""
<html>
    <head>
        <title>这是标题</title>
    </head>
    <body>
        <div>这是内容</div>
        </body>
</html>
"""

最后也实现了我的要求，可以封装为单独的函数，以便调用


from lxml import etree


def remove_elements(html, xpath):
    """
    移除html 文本中的元素
    :param html: str
    :param xpath: str
    :return: str
    """
    tree = etree.fromstring(html)

    # 返回一个列表
    remove_tags = tree.xpath(xpath)

    for remove_tag in remove_tags:
        remove_tag.getparent().remove(remove_tag)

    return etree.tounicode(tree)


if __name__ == '__main__':
    text = """
    <html>
        <head>
            <title>这是标题</title>
        </head>
        <body>
            <div>这是内容</div>
            <div>要移除的内容</div>
        </body>
    </html>"""

    print(remove_elements(text, '//div[last()]'))

参考
https://lxml.de/tutorial.html

彭世瑜博客专家

发布了1488 篇原创文章 · 获赞 454 · 访问量 158万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/mouday/article/details/105296938

数据清洗：利用lxml移除html中的元素

使用lxml.html.clean.Cleaner清洗html

Spark中利用Scala进行数据清洗（代码）

数据清洗：使用htmlmin清除html中的空格

【自然语言处理数据清洗】清洗文本中html标签

如何向文档中添加和移除元素(节点)（JavaScript HTML DOM 元素 (节点)）

数据结构与算法之在数组中移除元素

利用指针和数组移除元素

集合移除元素中的坑！

利用R进行脏数据清洗

利用python 进行数据清洗

利用python进行数据清洗

利用MapReduce进行数据清洗

利用pandas进行数据清洗

利用poi实现对数据清洗

HTML5新增元素和移除的元素？

Python：针对HTML内容的数据清洗

数据清洗（三）----- 清洗PDF文件中的数据

使用BeautifulSoup和lxml解析网页中的元素（一）

js移除B中包含A的元素

移除数组中的重复元素

关于从集合List中移除元素

随笔-删除（移除）数组中的指定元素

JS/Jquery 中移除子元素的问题

leetcode_移除链表中的元素

Matlab 从数组或矩阵中移除元素

203_移除链表中的元素(easy)

[作业] 移除数组中的元素

移除数组中的元素【JavaScript】

删除链表中的节点(移除链表元素)

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)