Python正则表达式概述

一、正则表达式为高级的文本模式匹配、抽取、与/或文本形式的搜索和替换功能提供了基础。简单地说，正则表达式regex是一些字符和特殊符号组成的字符串，它们描述了模式的重复或者表述多个字符，于是正则表达式能按照某种模式匹配一系列有相似特征的字符串。

二、特殊符号和字符

常见表达式符号和特殊字符
literal	匹配文本字符串的字面值literal	foo
re1\|re2	匹配正则表达式re1或者re2	foo\|bar
.	匹配任何字符（除了\n之外）	b.b
^	匹配字符串起始部分	^Dear
$	匹配字符串终止部分	/bin/*sh$
*	匹配0次或者多次前面出现的正则表达式	[A-Za-z0-9]*
+	匹配1次或者多次前面出现的正则表达式	[a-z]+\.com
?	匹配0次或者1次前面出现的正则表达式	goo?
{N}	匹配N次前面出现的正则表达式	[0-9]{3}
{M,N}	匹配M~N次前面出现的正则表达式	[0-9]{5,9}
[...]	匹配来自字符集的任意单一字符	[aeiou]
[..x-y..]	匹配x~y范围中的任意单一字符	[0-9],[A-Za-z]
[^...]	不匹配此字符集中出现的任何一个字符，包括某一范围的字符（如果在此字符集中出现）	[^aeiou],[^A-Za-z0-9]
(*\|+\|?\|{})?	用于匹配上面频繁出现/重复出现符号的非贪婪版本（*, +, ?, {}）	.*?[a-z]
(...)	匹配封闭的正则表达式，然后另存为子组	([0-9]{3})?,f(oo\|u)bar

特殊字符
\d	匹配任何十进制数字，与[0-9]一致（\D和\d相反，不匹配任何非数值型的数字）	data\d+.txt
\w	匹配任何字母数字字符，与[A-Za-z0-9_]相同（\W与之相反）	[A-Za-z_]\w+
\b	匹配任何单词边界（\B与之相反）	\bThe\b
\N	匹配已保存的子组N	price:\16
\s	匹配任何空格字符，与[\n\t\r\v\f]相同（\S与之相反）	of\sthe
\c	逐字匹配任何特殊字符，即仅按照字面意义匹配，不匹配特殊含义	\.,\\, \*
\A(\Z)	匹配字符串的起始（结束）	\ADear

三、正则表达式示例

1、以字符串起始或者结尾或者单词边界匹配（匹配任何以美元符号结尾的字符串，可用.*\$$）

2、创建字符集

b[aeiu]t	bat，bet，bit，but
[cr][23][dp][o2]	一个包含四个字符的字符串，第一个字符是c或者r，然后2或者3

3、限定范围和否定

z.[0-9]	字母‘z’后面跟着任何一个字符，然后跟着一个数字
[r-u][env-y][us]	字母r、s、t或者u后面跟着envwx或者y，然后跟着u或者s
[^aeiou]	一个非元音字符
[^\t\n]	不匹配制表符或者\n
[“-a]	在一个ASCII系统中，所有字符都位于“”和“a”之间，即34-97

4、使用闭包操作符实现存在性和频数匹配

[dn]ot?	字母d或者n，后面跟着一个o，然后最多一个t，如do，no，dot，not
0?[1-9]	任何数值数字，它可能前置一个0，例如匹配一系列数（表示从0-9月的数值），不管是一个还是两个数字
[0-9]{15,16}	匹配15或者16个数字，例如信用卡号码
</?[^>+>	匹配全部有效（和无效的）HTML标签
[KQRBNP][a-h][1-8]-[a-h][1-8]	在“长代数”标记法中，表示国际象棋合法的棋盘移动，即在KQRBNP等字母后面加上a1-h8之间的棋盘坐标，前面的坐标表示从哪里走，后面的坐标表示走到哪个位置上

5、表示字符集的特殊字符

\w+-\d+	一个由字母数字组成的字符串和一串由一个连字符分割的数字
[A-Za-z]\w*	第一个字符是字母：其余字符可以是字母或者数字
\d{3}-\d{3}-\d{4}	美国电话号码的格式，前面是区号前缀，例如800-555-1212
\w+@\w+\.com	以[email protected]格式表示的简单电子邮件地址

6、使用圆括号指定分组

扫描二维码关注公众号，回复： 4979660 查看本文章

\d+(\.\d*)?	表示简单浮点数的字符串，即任何十进制数字，后面可以接一个小数点和零个或者多个十进制数字，如0.004， 2， 75.
(Mr?s?\.)?[A-Z][a-z]*[A-Za-z-}+	姓名和姓氏，以及对名字的限制（如果有，首字母要大写后续字母要小写），全名前可以有可选的Mr. Mrs. Ms. M. 作为称谓，以及灵活可选的姓氏，可以有多个单词，横线，以及大写字母

7、扩展表达式

(?:\w+\.)*	以句点作为结尾的字符串，例如google，twitter，facebook，但是这些匹配不会保存下来供后续的使用和数据检索
(?#comment)	此处并不做匹配，只是作为注释
(?=.com)	如果一个字符串后面跟着.com才做匹配操作，并不使用任何目标字符串
(?!.net)	如果一个字符串后面不是跟着.net才做匹配操作
(?<=800-)	如果字符串之前为800-才做匹配，假定为电话号码，同样，并不使用任何输入字符串
(?<!192\.168\.)	如果一个字符串之前不是192.168.才做匹配，假定用于过滤掉一组C类IP地址
(?(1)y\|x)	如果一个匹配组1(\1)存在，就与y匹配，否则，就与x匹配。