中1：包含HTML标签的所有文字内容提取：string() - 代码天地

中1：包含HTML标签的所有文字内容提取：string()

其他 2018-09-12 04:13:02 阅读次数: 0

包含HTML标签的所有文字内容提取：string()

<div class="post-content" itemprop="articleBody">
       <p>如果你因失去了太阳而流泪，那么你也将失去群星了。 
      <br>If you shed tears when you miss the sun, you also miss the stars. 
      </p>
      <p><a href="http://www.scrapyd.cn"><a href="http://www.scrapyd.cn" target="_blank"><u>scrapy中文网</u></a>（</a><a href="http://www.scrapyd.cn">http://www.scrapyd.cn</a>）整理</p>        
</div>

如果我们用表达式：//div[@class=’post-content’]//text()，你会发现虽然能提取但是一个列表，不是整段文字：

In [4]: response.xpath("//div[@class='post-content']//text()").extract()
Out[4]:
['\n            ',
 '如果你因失去了太阳而流泪，那么你也将失去群星了。 ',
 'If you shed tears when you miss the sun, you also miss the stars. ',
 'scrapy中文网（',
 'http://www.scrapyd.cn',
 '）整理',
 '        ']

那这里我们就用到一个xpath函数：string()，我们可以把表达式这样写：response.xpath(“string(//div[@class=’post-content’])“).extract()，可看到我们没有使用：text()，而是用：string(要提取内容的标签)，这样的话就能把数据都提取出来了，而且都合成为一条，并非一个列表，如下：

In [5]: response.xpath("string(//div[@class='post-content'])").extract()
Out[5]: ['\n            如果你因失去了太阳而流泪，那么你也将失去群星了。 If you
shed tears when you miss the sun, you also miss the stars. scrapy中文网（http://
www.scrapyd.cn）整理        ']

参考文献：http://www.scrapyd.cn/doc/186.html

猜你喜欢

转载自blog.csdn.net/u014229742/article/details/82256096

中1：包含HTML标签的所有文字内容提取：string()

Android提取HTML代码内的所有文字内容

HTML提取所有div标签下的所有及下子标签的内容

xpath提取 html标签的文字内容

xpath提取包含标签的所有文本内容 - xpath常用语法汇总

通过js去掉所有的html标签，得到HTML标签中的所有内容

去掉所有的html标签，得到HTML标签中的所有内容

beautifulsoup提取所有<a>标签内容 Python

PHP 清除某类html标签提取文字内容的函数的，

HTML中提取文字内容，去掉标签样式等

jsoup 提取 html中的所有链接

python xpath提取标签内的所有内容(scrapy版本)

替换 HTML 标签中的图像 src？使用Regex从html字符串中提取所有图像

提取PPT所有文字

python提取url中的所有中文字符

xpath获取第1个以后的所有标签内容

(python)Xpath如何提取html标签（HTML标签和内容）

java去除html代码中含有的html、js、css标签，获取文字内容

使用webstorm找出指定文件夹内所有文件中包含的中文字符（webstorm利用正则查找内容）

Android 从带有html标签的String字符串中提取网页链接url

HTML <head>:包含了所有的头部标签元素

利用正则表达式去除所有html标签，只保留文字

使用正则表达式去除所有html标签只保留文字

BeautifulSoup获取标签中包含的文字

jq 点击复制div里面的内容如果粘贴到富文本中，会将样式，里面所有的标签，文字一并粘贴进去

java读取html文件，并获取body中所有的标签以及内容

xpath string()标签下所有文本

html中label标签内容如何实现指定文字处换行

R语言提取文字（字符串）中的内容--正则式（1）

Jsoup解析html文档提取标签内容-style样式demo

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)