关于正则表达式的讲解

以下内容源于《linux命令行与shell脚本编程大全【第三版】》一书的整理。

在shell脚本中成功运用sed编辑器和gawk程序的关键,在于熟练地使用正则表达式。

一、正则表达式的简介

1、正则表达式的定义

正则表达式(regular expression)是一个模板,linux工具(比如sed编辑器、gawk程序)可以利用这个模板来过滤文本。

换句话说,在处理数据时,可以利用正则表达式对数据进行模式匹配。如果数据匹配模式,则数据会被接受并进一步处理;如果数据不匹配模式,则数据会被过滤掉。

正则表达式包含有文本或特殊字符,可以使用不同的特殊字符来定义特定的数据过滤模板。

我们平常说的“匹配模板”,或者“正则表达式”,或者“正则表达式模板”,都是这个意思。

2、正则表达式的类型

一个正则表达式写出来后,谁来负责解释这个正则表达式,并利用它进行文本匹配呢?

Linux中有一套底层软件负责完成这部分工作,我们把这套底层软件叫做“正则表达式引擎”。

Linux中有两种流行的正则表达式引擎:POSIX基础正则表达式引擎(简称BRE引擎)、POSIX扩展正则表达式引擎(简称ERE引擎)。不同引擎下正则表达式的写法不同。

sed编辑器能识别BRE引擎下的正则表达式,不能识别ERE引擎下的正则表达式(即在sed编辑器中不能使用ERE引擎下正则表达式的写法);gawk程序可以识别ERE引擎下的正则表达式(也可以识别BRE引擎下的正则表达式),自身也提供了一些额外的过滤功能,因此gawk在处理数据流时通常比较慢。

接下来讲述在不同引擎下,如何编写一个正则表达式。

二、BRE引擎下正则表达式的写法

1、普通的文本字符

最基础的BRE模板,是匹配数据流中的普通文本字符。

在sed编辑器的替换命令s(见sed命令)中我们已经尝试过这种写法,比如下面例子中,单词test就是一个正则表达式模板。

xjh@ubuntu:~/iot/tmp$ cat data1.txt 
This is a test
xjh@ubuntu:~/iot/tmp$ sed 's/test/big test/' data1.txt 
This is a big test
xjh@ubuntu:~/iot/tmp$

2、特殊的文本字符

有一些文本字符有特殊的含义,比如.*[ ]^$()\+?|()等等。

如果要在文本模式中使用这些字符,就必须转义,也就是在它们前面添加反斜杠\,告诉正则表达式引擎把它当做普通的文本字符。

举个例子,如果要查找文本中的美元符号,需要在它前面添加反斜杆\。

xjh@ubuntu:~/iot/tmp$ cat data6.txt 
The dog costs me $66.00
The cat costs me $45.00
xjh@ubuntu:~/iot/tmp$ sed '/\$/s/\$/RMB/' data6.txt
The dog costs me RMB66.00
The cat costs me RMB45.00
xjh@ubuntu:~/iot/tmp$ 

3、锚字符

默认情况下,与正则表达式匹配的地方,可以是某一行的行首、行尾或者行中间某处地方,只要正则表达式与某一行内容的任何地方匹配上,则会将该行的内容传回Linux工具。

我们也可以利用两个特殊的字符,即脱字符(^)与美元符($),以满足只匹配行首或者只匹配行尾的需求,其中脱字符(^)表示只检测行首的内容是否符合正则表达式,美元符($)表示只检测行尾的内容是否符合正则表达式。

xjh@ubuntu:~/iot/tmp$ echo "the book store" | sed -n '/^book/p' #^book表示检测行首是否符合正则表达式book,这里行首是the而非book,因此匹配不上而没有输出
xjh@ubuntu:~/iot/tmp$ echo "book are great" | sed -n '/^book/p' #^book表示检测行首是否符合正则表达式book,这里行首就是book,匹配得上而输出
book are great
xjh@ubuntu:~/iot/tmp$ echo "This is a good book" | sed -n '/book$/p' #book$表示检测行尾是否符合正则表达式book,这里行尾就是book,因此匹配得上而输出
This is a good book
xjh@ubuntu:~/iot/tmp$ echo "This book is good" | sed -n '/book$/p'#book$表示检测行尾是否符合正则表达式book,这里行尾不是book,匹配不上而没有输出
xjh@ubuntu:~/iot/tmp$

 我们也可以用组合锚点(^与$组合使用),来寻找包含特定文本模式的数据行。

xjh@ubuntu:~/iot/tmp$ cat data.txt 
this is a test of using both anchors
I said this is a test
this is a test
I am sure this is a test
xjh@ubuntu:~/iot/tmp$ sed -n '/^this test$/p' data.txt 
xjh@ubuntu:~/iot/tmp$ sed -n '/^this is a test$/p' data.txt 
this is a test
xjh@ubuntu:~/iot/tmp$

下面是利用组合锚点并结合删除命令d,来删除文档中空白行的例子。

xjh@ubuntu:~/iot/tmp$ cat data.txt 
I said this is a test
                   #这里有一行空行
I am sure this is a test
xjh@ubuntu:~/iot/tmp$ sed '/^$/d' data.txt 
I said this is a test
I am sure this is a test
xjh@ubuntu:~/iot/tmp$

4、点号字符

点号字符是上面第2点写到的特殊字符的其中一种,它用来匹配任意单个字符(除了换行符之外)。值得注意的是,点号必须要匹配一个字符,如果在点号的位置没有字符,则就不符合该模式。

xjh@ubuntu:~/iot/tmp$ cat data1.txt 
This is a test of a line.
The cat is sleeping.
That is a very nice hat.
This test is at line four. #at前面是空格,它也是一个字符,因此匹配的上
at ten o'clock we'll go home. #at前面没有任何字符,因此不匹配
xjh@ubuntu:~/iot/tmp$ sed -n '/.at/p' data1.txt 
The cat is sleeping.
That is a very nice hat.
This test is at line four.
xjh@ubuntu:~/iot/tmp$

5、字符组

上面的点符号表示匹配任意字符。如果想要限定待匹配的具体字符范围(也就是说,模板给出了一组字符,待匹配的数据无论出现这组字符中的哪一个字符,都算匹配上),该如何表示呢?

可以用方括号[ ]来定义一组字符。

xjh@ubuntu:~/iot/tmp$ cat data1.txt 
This is a test of a line.
The cat is sleeping.
That is a very nice hat.
This test is at line four.
at ten o'clock we'll go home.
xjh@ubuntu:~/iot/tmp$ sed -n '/[ch]at/p' data1.txt 
The cat is sleeping.
That is a very nice hat.
xjh@ubuntu:~/iot/tmp$ echo "Yes" | sed -n '/[Yy]es/p'
Yes
xjh@ubuntu:~/iot/tmp$ echo "yes" | sed -n '/[Yy]es/p'
yes
xjh@ubuntu:~/iot/tmp$ echo "yes" | sed -n '/[Yy][Ee][Ss]/p'
yes
xjh@ubuntu:~/iot/tmp$ echo "yEs" | sed -n '/[Yy][Ee][Ss]/p'
yEs
xjh@ubuntu:~/iot/tmp$ echo "yES" | sed -n '/[Yy][Ee][Ss]/p'
yES
xjh@ubuntu:~/iot/tmp$ echo "ABCDyesEFG" | sed -n '/[Yy][Ee][Ss]/p'
ABCDyesEFG
xjh@ubuntu:~/iot/tmp$

注意,正则表达式可以匹配数据流文本的任何位置,行首、行尾或者行中。这意味着,与正则表达式匹配的数据所在的行,它的内容刚好就是正则表达式匹配到的内容,但更多的情形,是正则表达式匹配到的内容,只是一行内容中的某个部分。如果要限定匹配的位置、匹配的字符数,则需要用到锚字符^与$,比如明确匹配6位的邮政编码、11位的电话号码等等。

xjh@ubuntu:~/iot/tmp$ cat data.txt 
60644
24533
xjh34234is
588978
380
6738546
267385hutu
xjh@ubuntu:~/iot/tmp$ sed -n '
> /[0123456789][0123456789][0123456789][0123456789][0123456789]/p
> ' data.txt  #这种写法下,只有380不符合
60644
24533
xjh34234is
588978
6738546
267385hutu
xjh@ubuntu:~/iot/tmp$ sed -n '
> /^[0123456789][0123456789][0123456789][0123456789][0123456789]$/p
> ' data.txt  #这种写法,限定了开头与结尾的内容,并显示了匹配的字符数目为5个
60644
24533
xjh@ubuntu:~/iot/tmp$

6、排除型字符组

如果使用排除型字符组会,在进行匹配时,会匹配(排除型字符组中的字符之外的)任意字符。

排除型字符组必须要匹配一个字符,如果在排除型字符组的位置没有字符,就不符合该模式。

排除型字符组的用法,是在字符组的方括号里面,在字符组前面加一个脱字符。

xjh@ubuntu:~/iot/tmp$ cat data1.txt 
This is a test of a line.
The cat is sleeping.
That is a very nice hat.
This test is at line four.
at ten o'clock we'll go home.
xjh@ubuntu:~/iot/tmp$ sed -n '/[^ch]at/p' data1.txt 
This test is at line four.
xjh@ubuntu:~/iot/tmp$

7、区间 

可以用单破折号在字符组中表示字符区间。只需要指定区间的第一个字符、单破折号以及区间的最后一个字符就行了。

这个方式可以用来定义数字区间,也可以用来定义字母区间,还可以定义不连续的区间。

xjh@ubuntu:~/iot/tmp$ cat data.txt 
60644
24533
xjh34234is
588978
380
6738546
267385hutu
xjh@ubuntu:~/iot/tmp$ sed -n '
> /^[0-9][0-9][0-9][0-9][0-9]$/p
> ' data.txt
60644
24533
xjh@ubuntu:~/iot/tmp$ cat data1.txt 
This is a test of a line.
The cat is sleeping.
That is a very nice hat.
This test is at line four.
at ten o'clock we'll go home.
xjh@ubuntu:~/iot/tmp$ sed -n '/[c-h]at/p' data1.txt 
The cat is sleeping.
That is a very nice hat.
xjh@ubuntu:~/iot/tmp$ sed -n '/[a-ch-m]at/p' data1.txt
The cat is sleeping.
That is a very nice hat.
xjh@ubuntu:~/iot/tmp$ 

8、特殊的字符组

除了定义自己的字符组,BRE还包括一些特殊的字符组,用来匹配特定类型的字符。

下面的表格中,字符组一列有内外两个中括号,但最外层的中括号才表示字符组,里层的中括号以及里面的内容,是一种固定的写法,表示某些具体的内容。比如[:lower]表示所有的小写字母,再在外面添加一个中括号后(即[[:lower]]),就表示字符组这一种正则表达式,它表示匹配任意一个小写字母。

字符组 描述
[[:alpha:]]   匹配任意字母字符,无论大小写

[[:alnum:]]  

匹配任意字母数字字符0~9、A~Z、a~z
[[:blank:]]   匹配空格或制表符
[[:digit:]]   匹配0~9之间的数字
[[:lower:]]   匹配小写字母a~z
[[:upper:]]   匹配大写字母A~Z
[[:print:]]  匹配任意可打印字符
[[:punct:]]   匹配标点符号
[[:space:]]   匹配任意空白字符:空格、制表符、NL、FF、VT、CR
xjh@ubuntu:~/iot/tmp$ echo "abc" | sed -n '/[[:digit:]]/p'
xjh@ubuntu:~/iot/tmp$ echo "abc" | sed -n '/[[:alpha:]]/p'
abc
xjh@ubuntu:~/iot/tmp$ echo "abc123" | sed -n '/[[:digit:]]/p'
abc123
xjh@ubuntu:~/iot/tmp$ echo "this is , a test" | sed -n '/[[:punct:]]/p'
this is , a test
xjh@ubuntu:~/iot/tmp$ 

9、星号 

正则表达式中,在某个字符后面添加星号,则表示这个字符必须在与正则表达式匹配的文本中出现0次或者多次,也就是说,可以没有这个字符,也可以有一个这个字符或者多个这字符。

这个正则表达式一般用在有常见拼写错误或者在不同语言中有拼写变化的单词。

xjh@ubuntu:~/iot/tmp$ echo "the color is beautiful" | sed -n '/colou*r/p'
the color is beautiful
xjh@ubuntu:~/iot/tmp$ echo "the colour is beautiful" | sed -n '/colou*r/p'
the colour is beautiful
xjh@ubuntu:~/iot/tmp$

另外,将点号与星号组合起来,可以匹配任意数量的任意字符。

xjh@ubuntu:~/iot/tmp$ echo "thisi is a regular pattern expression"|sed -n '
> /regula.*ession/p'
thisi is a regular pattern expression
xjh@ubuntu:~/iot/tmp$

星号也可以用在字符组上,如下所示。

xjh@ubuntu:~/iot/tmp$ echo "bt" | sed -n '/b[ae]*t/p'
bt
xjh@ubuntu:~/iot/tmp$ echo "bat" | sed -n '/b[ae]*t/p'
bat
xjh@ubuntu:~/iot/tmp$ echo "bet" | sed -n '/b[ae]*t/p'
bet
xjh@ubuntu:~/iot/tmp$ echo "beat" | sed -n '/b[ae]*t/p'
beat
xjh@ubuntu:~/iot/tmp$ echo "bekat" | sed -n '/b[ae]*t/p'
xjh@ubuntu:~/iot/tmp$ 

三、ERE引擎下正则表达式的写法 

因为sed编辑器不支持ERE引擎的正则表达式的写法,因此接下来的内容不会出现sed命令。

gawk同时支持BRE引擎与ERE引擎,因此上面第二节的内容,也可以用在gawk命令中。 

1、问号

问号的作用有点类似星号,但问号表示前面的内容可以出现0次或者1次,不能匹配多次。

另外可以将问号与字符组一起使用。

xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk '/be?t/{print $0}'
bt
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk '/be?t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "beet" | gawk '/be?t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "beeet" | gawk '/be?t/{print $0}'
xjh@ubuntu:~/iot/tmp$

xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk '/b[ea]?t/{print $0}'
bt
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk '/b[ea]?t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "bat" | gawk '/b[ea]?t/{print $0}'
bat
xjh@ubuntu:~/iot/tmp$ echo "beat" | gawk '/b[ea]?t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bot" | gawk '/b[ea]?t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "beet" | gawk '/b[ea]?t/{print $0}'
xjh@ubuntu:~/iot/tmp$

2、加号

加号的作用与星号类似,但加号表示前面的字符可以出现1次或者多次,但至少出现1次。如果该字符没有出现,则不符合该模式。

另外可以将加号与字符组一起使用。

xjh@ubuntu:~/iot/tmp$ echo "beeet" | gawk '/be+t/{print $0}'
beeet
xjh@ubuntu:~/iot/tmp$ echo "beet" | gawk '/be+t/{print $0}'
beet
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk '/be+t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk '/be+t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk '/b[ae]+t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bat" | gawk '/b[ae]+t/{print $0}'
bat
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk '/b[ae]+t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "baet" | gawk '/b[ae]+t/{print $0}'
baet
xjh@ubuntu:~/iot/tmp$ echo "beat" | gawk '/b[ae]+t/{print $0}'
beat
xjh@ubuntu:~/iot/tmp$ echo "beeeaeat" | gawk '/b[ae]+t/{print $0}'
beeeaeat
xjh@ubuntu:~/iot/tmp$ echo "beedeaeat" | gawk '/b[ae]+t/{print $0}'
xjh@ubuntu:~/iot/tmp$

3、花括号

在正则表达式中,可以在某字符之后使用花括号{ },表示匹这个字符出现次数的上下限。

可以用两种方式表示上下限区间:{m},字符准确出现m次;{m,n},字符至少出现m次,至多出现n次。

使用gawk时,要添加选项“--re-interval”。

另外,花括号可以与字符组一起使用。

xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk --re-interval '/be{1}t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk --re-interval '/be{1}t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "beet" | gawk --re-interval '/be{1}t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk --re-interval '/be{1,2}t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk --re-interval '/be{1,2}t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "beet" | gawk --re-interval '/be{1,2}t/{print $0}'
beet
xjh@ubuntu:~/iot/tmp$ echo "beeet" | gawk --re-interval '/be{1,2}t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bt" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bat" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
bat
xjh@ubuntu:~/iot/tmp$ echo "bet" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
bet
xjh@ubuntu:~/iot/tmp$ echo "baet" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
baet
xjh@ubuntu:~/iot/tmp$ echo "beat" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
beat
xjh@ubuntu:~/iot/tmp$ echo "beeat" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
xjh@ubuntu:~/iot/tmp$

4、管道符号

可以用管道符号|连接两个或者多个正则表达式,只要任何一个正则表达式与数据流匹配,则说明匹配成功,如果所有正则表达式与数据流都不匹配,则说明匹配失败。

注意,正则表达式与管道符号之间不能有空格,否则空格也会被看做是正则表达式的一部分。

xjh@ubuntu:~/iot/tmp$ echo "the cat is asleep" | gawk '/cat|dog/{print $0}'
the cat is asleep
xjh@ubuntu:~/iot/tmp$ echo "the dog is asleep" | gawk '/cat|dog/{print $0}'
the dog is asleep
xjh@ubuntu:~/iot/tmp$ echo "the sheep is asleep" | gawk '/cat|dog/{print $0}'
xjh@ubuntu:~/iot/tmp$

5、表达式分组

用括号将内容包围起来,表示一组,这一组就相当于一个普通的字符。

此时可以给该组使用特殊字符,比如问号(上面写到,问号表示该字符至多出现1次),表示这组至多出现1次。

将分组与管道符号组合起来创建正则表达式,是很常见的用法。分组表示一个字符(所以用到括号),但这个字符可以用两个正则表达式产生(所以用到管道)。

xjh@ubuntu:~/iot/tmp$ echo "Sat" | gawk '/Sat(urday)?/{print $0}'
Sat
xjh@ubuntu:~/iot/tmp$ echo "Saturday" | gawk '/Sat(urday)?/{print $0}'
Saturday
xjh@ubuntu:~/iot/tmp$ echo "Saturdayhhh" | gawk '/Sat(urday)?/{print $0}'
Saturdayhhh
xjh@ubuntu:~/iot/tmp$ echo "Saturdayurday" | gawk '/Sat(urday)?/{print $0}'
Saturdayurday #这里居然可以输出?

xjh@ubuntu:~/iot/tmp$ #将分组与管道符号组合起来创建正则表达式,是很常见的用法。
xjh@ubuntu:~/iot/tmp$ echo "cat" | gawk '/(c|b)a(b|t)/{print $0}'
cat
xjh@ubuntu:~/iot/tmp$ echo "cab" | gawk '/(c|b)a(b|t)/{print $0}'
cab
xjh@ubuntu:~/iot/tmp$ echo "bat" | gawk '/(c|b)a(b|t)/{print $0}'
bat
xjh@ubuntu:~/iot/tmp$ echo "bab" | gawk '/(c|b)a(b|t)/{print $0}'
bab
xjh@ubuntu:~/iot/tmp$ echo "tab" | gawk '/(c|b)a(b|t)/{print $0}'
xjh@ubuntu:~/iot/tmp$ echo "bac" | gawk '/(c|b)a(b|t)/{print $0}'
xjh@ubuntu:~/iot/tmp$

四、正则表达式的实战

见本人博客《shell编程100例》相关部分。

猜你喜欢

转载自blog.csdn.net/oqqHuTu12345678/article/details/129358423