Python 正则表达式匹配

- 匹配语法

1. 特殊字符:

特殊字符
$ 匹配输入字符串的结尾位置。
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。
* 匹配前面的子表达式零次或多次。
+ 匹配前面的子表达式一次或多次。
. 匹配除换行符 \n 之外的任何单字符。
[ 标记一个中括号表达式的开始。
? 匹配前面的子表达式零次或一次。
^ 匹配输入字符串的开始位置。
{ 标记限定符表达式的开始。
| 指明两项之间的一个选择。

2. 限定符

限定符
*  匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 、 "does" 中的 "does" 、 "doxy" 中的 "do" 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

3. 非打印字符

非打印字符
\n 匹配一个换行符。
\r 匹配一个回车符。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\d 匹配一个数字。
\D 匹配一个非数字。
\t 匹配一个制表符。
\v 匹配一个垂直制表符。
\f 匹配一个换页符。
\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
- 实例
  • 测试环境 Python 3
  • 需要模块 import re
    //明天一定搞
    咕咕咕的第一天
- 注意
  • *、+ 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
  • 区分
    1. [] 字符集,一个字符的集合,可匹配其中任意一个字符
    2. {n,m} 重复n到m次
    3. () 分组
  • 函数
    1. compile(pattern, flags=0) 给定一个正则表达式 pattern
    2. findall(pattern, string, flags=0) 寻找所有匹配正则表达式的字串,返回一个列表。
    3. match(pattern, string, flags=0) 去待操作字符串中寻找可以匹配的子串,从开始位置匹配。
    4. split(pattern, string, maxsplit=0, flags=0) 给定正则表达式寻找切分字符串位置。
    5. sub(pattern, repl, string, count=0, flags=0) 将正则表达式 pattern 匹配到的字符串替换为 repl 指定的字符串。
    6. search(pattern, string, flags=0) 函数类似于 match,不同之处在于不限制正则表达式的开始匹配位置。
存在问题

1.今天写正则的时候遇到个问题,弄了一下午。
匹配[ ]的内容:
数据:1133[55]444[66]777
当正则表达式为.*(\[.*?\]).*的时候找到的为[66]
当正则表达式为[.]*(\[.*?\])[.]*的时候找到的为[55]
不知道哪里出了问题!!!!!
叮咚!问题解决了!

  1. .*匹配除空格以外的所有 一直匹配到 1133[55]444
    然后( )匹配到 [66]
    最后的.*匹配到777 所以最终得到[66]
  2. 下面那个 [.]匹配字符集 . 0或者多个 都匹配不到
    (\[.*?\]) 一直搜索到1133这里 发现[55] 可以匹配到
    后面的[.]* 到444结束 所以就一个[55]
  • 总结:
    1. .*都匹配除空格外的所有了 最后一个[]在哪里就匹配到哪里 。(即贪婪匹配)
    2. 尽量少用.*
    3. 如果要改的话,在所有第一个*号后加?试试。
    4. .*表示匹配除了\n的任意字符[.]* 表示是匹配字符集 .

发布了119 篇原创文章 · 获赞 20 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/qq_40727946/article/details/103566439