爬虫技术的正则基础：用re提取html标签中间的内容 - 代码天地

爬虫技术的正则基础：用re提取html标签中间的内容

其他 2020-02-23 18:45:46 阅读次数: 0

我们可以使用贪心捕获、费贪心捕获等方法，用正则表达式提取标签中间的内容。我们需要将模式字符串设置为

(.*)

来捕获标签中间的内容，其中点号.表示匹配除了换行符以外的任意字符，*表示匹配任意多（0个或者1个或者多个）字符。注意如果我们把小括号（）去掉，那么在返回的字符串中将把html标签也包括进去。我们可以通过以下代码来看一下运行的结果。

import re
content = '''
	<h>dakfadg</>
	<div>graph</div>
	<div>math</div>
'''

pat = r'<div>.*</div>'
results = re.findall(pat,content)
print(results)

pat = r'<div>(.*)</div>'
results = re.findall(pat,content)
print(results)

结果如下图所示：

['<div>graph</div>', '<div>math</div>']
['graph', 'math']
[Finished in 0.7s]

这样我们就把div标签中的内容存放在了一个列表当中，这项技术可以用在网络爬虫中。

梧桐雪

发布了152 篇原创文章 · 获赞 6 · 访问量 4033

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_41855010/article/details/104435653

爬虫技术的正则基础：用re提取html标签中间的内容

用正则获取html 里的标签，并替换标签里的内容

python爬虫用bs4获取标签中间的文本内容以及标签里的属性

用python 写一个正则，按前后提取中间的内容

提取本地html文件标签(正则)

python正则提取html的title标签

xpath提取 html标签的文字内容

(python)Xpath如何提取html标签（HTML标签和内容）

【爬虫基础】java用正则表达式处提取网页信息

Python爬虫基础——re模块的提取和匹配

python--正则匹配首尾标签中间的内容

java用正则去除html标签

【正则】匹配html标签里的内容，不含标签

python re 正则提取域名

# 正则表达式 -- re模块爬虫基础 # 15

【re正则表达式】------- PYTHON爬虫基础1

PHP 清除某类html标签提取文字内容的函数的，

HTML中提取文字内容，去掉标签样式等

Jsoup解析html文档提取标签内容-style样式demo

Python使用re模块正则提取字符串中括号内的内容示例

Python爬虫数据提取方式——正则表达式 re （附加实例：爬取csdn首页内容）附：表达式全集（正则表达式手册）

Python爬虫教程-19-数据提取-正则表达式(re)

Python爬虫教程-19-数据提取-正则表达式 re

[Python爬虫] 五、数据提取之正则表达式re模块

Python 爬虫正则表达式和re库，及re库的基本使用，提取单个页面信息

爬虫入门-HTML基础标签学习分享

用selenium提取html标签中的@href链接

java正则匹配html片段，并取得标签中的内容

python爬虫——re库（正则）

BASH脚本基础：正则方式提取内容示例

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)