【Linux】Shell正则表达式与通配符的区别

1. 正则表达式

正则表达式是用来在文本中匹配符合条件的字符串,是包含匹配 。Linux Shell中诸如 grep、awk、sed等命令都支持正则表达式。

可以参见 【linux命令】find命令、grep命令(正则表达式) 中的 <2.2 正则表达式>章节

2. 通配符

通配符是用来匹配符合条件的文件/路径名,是完全匹配 。Linux Shell中 ls、find、cp 命令不支持正则表达式,所以只能使用通配符来进行文件/路径匹配。

在 Shell 中命令中,通常会使用通配符表达式来匹配一些文件,如以下命令可以查找当前目录下所有后缀为 .xml 的文件:

find . -name "*.xml" 

Shell 中可以使用的通配符如下:

通配符 说明
* 匹配0或任意个字符
匹配一个任意字符,而且必须出现
[ ] 匹配中括号的字符。a[xyz]b,a与b之间必须也只能有一个字符, 但只能是 x 或 y 或 z, 如 axb, ayb, azb。
[-] 匹配中括号的字符。例如[a-b],匹配小写字母,只会匹配集合中的一个
[^] 匹配除了中括号的一个字符。例如[^0-9],匹配除了数字的字符,只会匹配集合中的一个
{ab,ba} 匹配其中一个字符串。例如匹配ab或ba

2.1 转义字符

有的时候,我们匹配的内容里面会存在 *?,[等通配符中的符号。为了表示他们原来的意思,我们需要使用转义字符 \,如

  • a\[ac\]c 表示匹配 a[a]c 或 a[c]c
  • \ 本身用 \\ 表示。

3. 通配符表达式和正则表达式的区别

通配符看起来和正则表达式很像,但他们并不是同一种东西。正则表达式中的那些量词的匹配规则和这里提到的几个通配符的匹配规则并不相同:

  • 如正则表达式中 * 表示重复前一个字符任意次, 而通配符表达式中 * 表示 0 或多个任意字符。
    在正则表达式中,ab* 表示的是那些 a 后面跟 0 个或多个 b 的字符串,而通配符表达式中 ab* 表示的是那些 ab 后面跟任意个字符的字符串。

  • Java等正则表达式一般是部分匹配的,用来匹配内容中的一部分,如用正则表达式 a 去匹配 bac 这段字符串时,匹配是成功的,匹配到的内容是 a。grep 的正则和通配符相似,也是匹配整行,除非通过 -o 命令强制显示为匹配的片段

    扫描二维码关注公众号,回复: 15584910 查看本文章

    但是通配符表达式的话是全部匹配的,表达式要匹配整个字符串才算匹配成功,如用通配符表达式 *a* 取匹配 bac 这段字符串时,匹配的结果是整个字符串bac。

4. 反例

举个反例:使用 grep 时,应该使用正则表达式,而不是通配符。想看一个 jar 包里是不是有 pom 相关的文件,所以就输入了下面命令

jar tf maven-model-builder-3.5.3.jar | grep 'pom*'

结果输入了一堆文件,而且很多文件都没有 pom 这串字符串的。输出内容是这样的:


org/apache/maven/model/composition/
org/apache/maven/model/interpolation/
org/apache/maven/model/superpom/
org/apache/maven/model/composition/DependencyManagementImporter.class

这就是因为我把通配符表达式和正则表达式搞混了,此处grep 认为用户输入的正则表达式,正则 ‘pom*’ 表示找到po开头,且后面跟0个或多个m的字符串,用下面的命令才得到想要的内容。

jar tf maven-model-builder-3.5.3.jar | grep 'pom.*'   //此时才是pom开头,.号在正则中是特殊字符,代表任意一个字符, 后面跟个*号吗,表示pom后面 出现0个或多个字符

参考

LinuxShell正则表达式与通配符的区别
Shell中的通配符

猜你喜欢

转载自blog.csdn.net/m0_45406092/article/details/129370142