(python)Xpath如何提取html标签（HTML标签和内容） - 代码天地

(python)Xpath如何提取html标签（HTML标签和内容）

其他 2018-07-20 04:59:26 阅读次数: 0

问题： (python)Xpath如何提取html标签（HTML标签和内容）
描述:

<div>
   <table>
      <tr>
         <td>Row value 1</td>
         <td>Row value 2</td>
      </tr>
      <tr>
         <td>Row value 3</td>
         <td>Row value 4</td>
      </tr>
      <tr>
         <td>Row value 1</td>
         <td>Row value 1</td>
      </tr>
   </table>
</div>

如何把table标签提取出来，结果如下：

<table>
  <tr>
     <td>Row value 1</td>
     <td>Row value 2</td>
  </tr>
  <tr>
     <td>Row value 3</td>
     <td>Row value 4</td>
  </tr>
  <tr>
     <td>Row value 1</td>
     <td>Row value 1</td>
  </tr>
</table>

代码如下：

selector = etree.HTML(html)
content = selector.xpath('//div/table')[0]
print(content)
# <Element div at 0x1bce7463548>
# 即：如何将Element对象转成str类型

解决方案1:

BeautifulSoup的find

解决方案2:

from lxml.html import fromstring, tostring
# fromstring返回一个HtmlElement对象
# selector = fromstring(html)

selector = etree.HTML(html)
content = selector.xpath('//div/table')[0]
print(content)
# tostring方法即可返回原始html标签
original_html = tostring(content)

解决方案3:

[div/table]就行吧貌似

解决方案4

from lxml import etree
div = etree.HTML(html)
table = div.xpath('//div/table')[0]
content = etree.tostring(table,print_pretty=True, method='html')  # 转为字符串

以上介绍了“ (python)Xpath如何提取html标签（HTML标签和内容）”的问题解答，希望对有需要的网友有所帮助。
本文网址链接：http://www.codes51.com/itwd/4510100.html

猜你喜欢

转载自blog.csdn.net/diyiday/article/details/81058942

(python)Xpath如何提取html标签（HTML标签和内容）

xpath提取 html标签的文字内容

python xpath提取标签内的所有内容(scrapy版本)

python正则提取html的title标签

html 文本解码 xpath 获取html标签

PHP 清除某类html标签提取文字内容的函数的，

HTML中提取文字内容，去掉标签样式等

Jsoup解析html文档提取标签内容-style样式demo

从html中提取img标签

如何在HTML网页中显示HTML标签内容？

PHP 删除html标签和标签内的内容的方法

HTML的 a标签和 base标签

HTML提取所有div标签下的所有及下子标签的内容

TextView设置html标签内容

python过滤html标签

python去除html标签

【python】利用BeautifulSoup提取html中的标签、数据

HTML基础和标签

html介绍和标签

html列表和标签

HTML用法和标签

HTML标签和属性

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）

HTML 的文字标签、注释标签、标题内容、水平线标签和特殊字符

工具类：内容有大量的html标签，去除html标签

Sql Server 如何去掉内容里面的Html标签

Java如何快速获取Html标签中的内容

Python 实例｜清理包含 HTML 编码和 HTML 标签的文本

提取本地html文件标签(正则)

js获取html标签内容和包含标签本身与内容的方法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)