python爬虫中正则表达式学习心得以及典型实例 - 代码天地

python爬虫中正则表达式学习心得以及典型实例

其他 2018-07-16 22:15:18 阅读次数: 0

一正则表达式简介

regular expression --> 用来简洁表达一组字符串的表达式

主要用于：文本处理 --> 如（表达文本类型的特征，同时查找或替换一组字符串，匹配字符串的全部或部分）

二正则表达式常用操作符

操作符	描述	操作符	描述
\w	匹配字母数字及下划线	^	匹配字符串开头
\W	匹配非字母数字下划线	$	匹配字符串末尾
\s	匹配任意空白字符，等价于[\t\n\f]	.	匹配任意字符，处理换行符
\S	匹配任意非空字符	[...]	用来表示一组字符，单独列出：[amk]匹配'a','m'或者'k'
\d	匹配任意数字	[^...]	不在[]中的字符：[^abc]匹配除了a,b,c之外的字符
\D	匹配任意非数字	*	匹配0个或多个的表达式
\A	匹配字符串开始	+	匹配一个或多个的表达式
\Z	匹配字符串结束，如果有换行，匹配到换行前	?	匹配0个或者1个
\z	匹配字符串结束	｛n｝	精确匹配n个前面表达式
\G	匹配最后匹配完成的位置	{n, m}	匹配n到m次由前面的正则表达定义的片段，贪婪方式
\n	匹配一个换行符	a\|b	匹配a或b
\t	匹配一个制表符	()	匹配括号内的表达式，也表示一个组

三常用正则表达式实例

1. 匹配中文字符： [\u4e00-\u9fa5]+

2. 匹配网址URL： [a-z]+://[^\s]*

3. 国内电话号码： \d{3}-\d{8}|\d{4}-\{7,8}

4. 中国邮政编码: [1-9]\d{5}(?!\d)

5. 匹配整数：^-?[1-9]\d*$

6. 26个字母和数字组成的字符串：^[a-zA-Z0-9]+$

7. ip地址匹配：(([0-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

四 Re库主要功能函数

函数	描述
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

基本用法： re.search(pattern, string, flags=0)

pattern --> 正则表达式的字符串或原生字符串

string --> 待匹配的字符串

flags --> 正则表达式使用时的控制标记

猜你喜欢

转载自blog.csdn.net/chenzao123/article/details/79449517

python爬虫中正则表达式学习心得以及典型实例

正则表达式的学习心得总结

Python中正则表达式

Python高级语法——正则表达式和XPath——学习心得笔记

正则?不要太简单!---正则表达式个人学习心得总结:

正则表达式基础——以Python爬虫为实例

Python中正则表达式 Python正则表达式指南

python 正则表达式以及爬虫初识

Python正则表达式以及爬虫

Shell脚本的学习心得和知识总结（四）|函数和正则表达式

Python中正则表达式对中文的匹配问题

Python中正则表达式讲解

Python中正则表达式（re模块）的使用

Python中正则表达式的特殊字符

Python中正则表达式的详细用法

python中正则表达式re模块

python中正则表达式的使用

Python中正则表达式介绍

Python中正则表达式的巧妙使用

Python中正则表达式的巧妙使用 !

python中正则表达式基本使用

python中正则表达式的应用大全

python中正则表达式与模式匹配

Python中正则表达式与模式匹配！

python中正则表达式？(问号)的详解及用法

Python中正则表达式用法重点

Java 中正则表达式的学习

Java中正则表达式的学习

JS中正则表达式

MySQL中正则表达式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)