Python爬虫基础+正则表达式 - 代码天地

Python爬虫基础+正则表达式

企业开发 2023-09-09 01:13:46 阅读次数: 0

爬取一个网站：

import urllib.request
res=urllib.request.urlopen('https://www.csdn.net/')
print(res.read())

爬虫正则表达式：

1.提取连续的四个数字 /d/d/d/d

import re
m=re.findall('\d\d\d\d','123adfa56sne6742')
print(m)

结果：[‘6742’]

2.已知提取的头部和尾部，提取中间部分，就是加括号（.*）

m=re.findall(r'<div>(.*)</div>','<div>hello</div>')

结果：[‘hello’]

3.有多个<>时，用上述方法只能识别第一个和最后一个，结果如下图：
在这里插入图片描述

m=re.findall(r'<div>(.*)</div>','<div>hello</div><div>world</div>')

这种情况下，括号（）中间要加？

m=re.findall(r'<div>(.*?)</div>','<div>hello</div><div>world</div>')

结果就是[‘hello’, ‘world’]

4.匹配除了换行符之外的字符

m=re.findall('.','sd\nefwe')

结果： [‘s’, ‘d’, ‘e’, ‘f’, ‘w’, ‘e’]

5.匹配[ ]中括号中任意一个字符都可以

m=re.findall('a[bcd]e','jabesadebacesse')

结果：[‘abe’, ‘ade’, ‘ace’]

6.提取数学是\d,非数字的字符是\D

7.提取空格\s,非空格的字符是\S

m=re.findall('\s',' vssf\t s')

结果：[’ ', ‘\t’, ’ ']

8.提取字母和数字\w,非字母和数字\W

m=re.findall('\w','1d*31&%4')

结果：[‘1’, ‘d’, ‘3’, ‘1’, ‘4’]

9.提取字符串 abs

m=re.findall('abs','absdgregabssff')

结果：[‘abs’, ‘abs’]

若只提取开头，在匹配的字符前加 ^

m=re.findall('^abs','absdgregabssff')

结果：[‘abs’]

10.匹配不区分别大小写，加re.I

m=re.findall('abc','abcABCdf',re.I)

结果：[‘abc’, ‘ABC’]

11.匹配0个或1个（后面跟0个或1个某字符）

m=re.findall('ab?','abbbabbba')

结果：[‘ab’, ‘ab’, ‘a’]

12.匹配至少1个

m=re.findall('ab+','abbbabbba')

结果：[‘abbb’, ‘abbb’]

13.匹配至少0个

m=re.findall('ab*','abbbabbba')

结果：[‘abbb’, ‘abbb’, ‘a’]

14.匹配com结尾的邮箱

m=re.findall('\w+@\w+\.com','[email protected];[email protected]')

结果：[‘[email protected]’]

猜你喜欢

转载自blog.csdn.net/qq_42740834/article/details/105329719

正则表达式基础——以Python爬虫为实例

python爬虫正则表达式基础

【re正则表达式】------- PYTHON爬虫基础1

Python爬虫基础+正则表达式

Python 爬虫_正则表达式

Python爬虫（正则表达式）

Python爬虫--正则表达式

Python爬虫与正则表达式

python爬虫正则表达式

python爬虫——正则表达式

【python爬虫】正则表达式

Python网络爬虫：爬虫原理、正则表达式、正则表达式函数、urllib基础、超时设置

python 正则表达式基础

「PYTHON」-- 正则表达式基础

Python 正则表达式（基础）

python基础：正则表达式

Python基础--正则表达式

Python正则表达式基础

Python基础——正则表达式

Python基础-正则表达式

Python正则表达式-基础

python 基础：正则表达式

【Python基础】正则表达式

python 爬虫：学爬虫必学的正则表达式

【Python爬虫开发基础②】Python基础（正则表达式）

PYTHON RE正则表达式 python基础-RE正则表达式

爬虫之正则表达式基础篇

【零基础学爬虫】正则表达式

爬虫-正则表达式的基础操作

# 正则表达式 -- re模块爬虫基础 # 15

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)