正则表达式简介
正则表达式是由一些具有特殊含义的字符组成的字符串,多用于查找、替换符合规则的字符串。在表单验证、Url映射等处都会经常用到。
一、元字符
元字符:即为有特定含义的字符,常见的元字符如下
常用的元字符
代码 |
说明 |
. |
匹配除换行符以外的任意单个字符 |
\w |
匹配字母或数字或下划线或汉字 |
\s |
匹配任意的空白符 |
\d |
匹配数字 |
\b |
匹配单词的开始或结束 |
^ |
匹配字符串的开始(在集合字符里[^a]表示非(不匹配)的意思 |
$ |
匹配字符串的结束 |
详解和示例:
(1). 匹配任何任意字符 例如 . 可以匹配 1,n,*,+,- ,等
(2)\d\w\s 匹配第一个字符为数字,第二个字符为字母或数字、或下划线或汉字,第三字符为空格的字符串 例如:11 ,2a , 1_
(3)^\d\d\d$ 匹配三个全部都为数字的字符串 例如: 123,456,789
还可以用于验证输入的字符串是否符合qq(身份证号)的验证 :
例如:^\d{8}$ 匹配8位数字的qq号,^\d{15}&匹配15位均为数字的身份证号
(4)\bOlive\b 匹配单词Olive 例如: I Love Oliver and Olive .这个时候返回的是Olive 而不是Oliver,因为\b....\b返回的匹配的单词
二、反义字符
反义字符:多用于查找除某个字符以外其他任意字符均可以的情况
常用的反义字符如下:
常用的反义字符
代码/语法 |
说明 |
\W |
匹配任意不是字母,数字,下划线,汉字的字符 |
\S |
匹配任意不是空白符的字符 |
\D |
匹配任意非数字的字符 |
\B |
匹配不是单词开头或结束的位置 |
[^x] |
匹配除了x以外的任意字符 |
[^aeiou] |
匹配除了aeiou这几个字母以外的任意字符 |
详解和示例:
(1)\W 匹配除字母、数字、下划线、汉字以为的字符形如 +,-,*
(2)\S 匹配除空格以外的任意字符形如:1,* ,)
(3)[^abcde]匹配除abcde以为的其他字符 如 e,f,g,h
三、限定字符
限定字符多用于重复匹配次数
常用的限定字符如下:
常用的限定符
代码/语法 |
说明 |
* |
重复零次或更多次 |
+ |
重复一次或更多次 |
? |
重复零次或一次 |
{n} |
重复n次 |
{,m} |
重复n次或更多次 |
{n,m} |
重复n到m次 |
详解和示例:
(1)\d* 匹配重复0次或多次数字 例如:可能为空 或 任意数字 (2,3。。。。)
(2)\d+ 匹配重复1次或多次数字 例如:可能为1个或多个数字 1,23,234,2345,........
(3)\d? 匹配重复次个或者一次数字 例如:可能为空或者任意的一个数字(1,2,。。。)
(4)\d{8}匹配重复8次数字 例如:123456768
(5)\d{4,}匹配重复至少4次数字 例如:1234,12345,124244,。。。。。
(6)^\d{8,11}$ 匹配重复8-11次数字 例如:12345678,123456789,1234567890,12345678901
四、懒惰匹配和贪婪匹配
贪婪匹配:正则表达式中包含重复的限定符时,通常的行为是匹配尽可能多的字符。
懒惰匹配,有时候需要匹配尽可能少的字符。
例如: a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。但是我们此时可能需要匹配的是ab这样的话就需要用到懒惰匹配了。懒惰匹配会匹配尽可能少的字符
常用的懒惰匹配限定符如下:
懒惰限定符
代码/语法 |
说明 |
*? |
重复任意次,但尽可能少重复 |
+? |
重复1次或更多次,但尽可能少重复 |
?? |
重复0次或1次,但尽可能少重复 |
{n,m}? |
重复n到m次,但尽可能少重复 |
{n,}? |
重复n次以上,但尽可能少重复 |
补充的内容
在这之前先说一下子组这个事情:括号在正则中可以用于分组,被括号括起来的部分可以称为子表达式,会被保存成一个子组。
(?:...):匹配在括号内的任何正则表达式,
但该分组所匹配的子字符串不能在执行匹配后被获取
不能在模式中被引用。不可以使用\number这种方式去引用
(?P<name>…): 命名组合:分组命名
(?P=name): 对前边已定义的分组的引用
(?=...): lookahead assertion: 正向预搜索, 不消耗内容
(?=正则):他是只作为匹配的条件,不会作为结果输出
只作为(?=)前边表达式的限定条件
(?!...):匹配 … 不符合的情况。 negative lookahead assertion
他是只作为匹配的条件,不会作为结果输出
只作为(?=)前边表达式的限定条件,判断后边不是(?!)中的内容
(?<=…): positive lookbehind assertion:正向后视断定(反向预搜索)
他是只作为匹配的条件,不会作为结果输出
只作为(?<=)后边表达式的限定条件
(?<!…):negative lookbehind assertion (后视断定取非)
他是只作为匹配的条件,不会作为结果输出
只作为(?!=)后边表达式的限定条件,判断前边不是(?<!)中的内容
(?(id/name)yes-pattern|no-pattern):
如果给定的 id(组号) 或 name(组名) 存在,将会尝试匹配 yes-pattern
否则就尝试匹配 no-pattern
常用的实例
Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在 8-10 之间):
^(?=.*\d)(?=.*[a-z])(?=.*[A-Z])[a-zA-Z0-9].{8,10}$
8位强密码(必须包含大小写字母和数字的组合,可以使用特殊字符,长度大于8):
(?=.*[0-9])(?=.*[a-z])(?=.*[A-Z])(?=.*[^a-zA-Z0-9]).{8,}
IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))