正则表达式查找网页源代码提取指定内容 - 代码天地

正则表达式查找网页源代码提取指定内容

其他 2020-01-30 20:34:07 阅读次数: 0

import requests
import re

txt='<a href="https://www.vgirls.com/13404.html" class="list-title text-md h-2x" target="_blank">想把夏日的阳光寄给冬日的你</a>'
urla=re.findall('<a href="(.*?)" class="list-title text-md h-2x" target="_blank">.*?</a>',txt)
for i in urla:
print(i)
urlb=re.findall('<a href=".*?" class="list-title text-md h-2x" target="_blank">(.*?)</a>',txt)
for i in urlb:
print(i)
结果：

https://www.vgirls.com/13404.html
想把夏日的阳光寄给冬日的你

总结：

1。根据网页源代码找到关键位置，主要分析相关同一级别的源代码的共同点

2。找到关键如txt的内容，复制下来
3。粘贴到空白处：urla=re.findall(' ',txt)
4.需要选择出来的部分去掉改成 (.*?)；不想选择但内容又变化的去掉改成 .?*,一定不能加括号

5。所以第一个只提取超级连接的地址；第二个只提取“标签A中的文字"

猜你喜欢

转载自www.cnblogs.com/xkdn/p/12243681.html

正则表达式查找网页源代码提取指定内容

python 正则表达式提取网页文字

批量网页内容爬虫（附正则表达式）

正则表达式给查找到的内容加引号

获取网页指定内容,终于不用正则表达式.

python学习笔记——提取网页中的信息正则表达式re

Matlab 提取网页信息保存到Excel（正则表达式）

【爬虫基础】java用正则表达式处提取网页信息

android 开发--抓取网页解析网页内容的若干方法(网络爬虫)（正则表达式）

MySQL8.0正则表达式：正则查找、中文匹配、正则替换、提取字符串

java 正则表达式精确查找和替换指定字符

利用正则表达式限制网页表单里的文本框输入内容

可以提取ip地址的正则表达式代码实例

能够提取邮政编码的正则表达式代码实例

第8章正则表达式查找文件内容

Notepad正则表达式查找括号里的内容包括换行

python 根据正则表达式提取指定的内容实例详解

超简单!利用"查看源代码"+正则表达式复制百度文库无法复制内容

正则表达式提取器

jmeter正则表达式提取

正则表达式提取月份

正则表达式提取中文

正则表达式提取内容的数字

正则表达式之提取括号内内容

通过正则表达式分句提取中文内容

python 正则表达式提取返回内容

正则表达式 -- 提取并替换 ${} 之间的内容

【超详总结/理解：正则表达式】特点/元字符/正则表达式中的标志位-flag/RegExp/重复操作与后向引用/匹配模式/表达邮箱/正则表达式对象的方法/利用正则表达式限制网页表单里的文本框输入内容

正则表达式内容

正则表达式内容梳理

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)