【Linux】正则表达式

版权声明:本文为博主原创文章,未经博主允许不得转载。Copyright (c) 2018, code farmer from sust. All rights reserved. https://blog.csdn.net/sustzc/article/details/82734749

    以前我们用grep在一个文件中找出包含某些字符串的行,比如在头文件中找出一个宏定义。其实grep还可以找出
符合某个模式(Pattern)的一类字符串。例如找出所有符合[email protected]模式的字符串(也就是email地址),
要求x字符可以是字母、数字、下划线、小数点或减号,email地址的每一部分可以有一个或多个x字符,
例如[email protected][email protected],当然符合这个模式的不全是合法的email地址,但至少可以做一次初步筛选,
筛掉a.b、c@d等肯定不是email地址的字符串。再比如,找出所有符合yyy.yyy.yyy.yyy模式的字符串(也就是IP地址),
要求y是0-9的数字,IP地址的每一部分可以有1-3个y字符。
    用grep查找一个模式,至少包含以下信息:
        字符类、数量限定符、位置限定符。
    规定一些特殊语法表示字符类、数量限定符和位置关系,然后用这些特殊语法和普通字符一起表示一个模式,
这就是正则表达式(Regular Expression)。

eg:
    email地址的正则表达式可以写成[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+,
    IP地址的正则表达式可以写成[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}
        查询文件中的ip地址
            egrep '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' ip_test     可能会出现前8位4个数字,后8位4个数字的情况
            egrep '^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}$' ip_test   // 精确匹配IP地址
            egrep '^([0-9]{1,3}\.){3}[0-9]{1,3}$' ip_test       更简洁的写法
            
    egrep相当于grep -E,表示采用Extended正则表达式语法。grep的正则表达式有Basic和Extended两种规范,
另外还有fgrep命令,相当于grep -F,表示只搜索固定字符串而不搜索正则表达式模式,不会按正则表达式的语法解释后面的参数。

    注意正则表达式参数用单引号括起来了,因为正则表达式中用到的很多特殊字符在Shell中也有特殊含义(例如\),只有用单引号括起来
才能保证这些字符原封不动地传给grep命令,而不会被Shell解释掉。
    grep找的是包含某一模式的行,这一行包含一个符合模式的字符串234.234.04.567。
相反,123.4234.045.678这一行不包含符合模式的字符串,所以不会被找出来。
    grep是一种查找过滤工具,正则表达式在grep中用来查找符合模式的字符串。其实正则表达式还有一个重要的应用是验证用户输入是否合法,
例如用户通过网页表单提交自己的email地址,就需要用程序验证一下是不是合法的email地址,

基本语法

    Shell脚本变量都是字符串。
    
    字符类    
       字符                   含义                                     举例
        .               匹配任意一个字符                   eg:    abc.可以匹配abcd、abc9等
       []                  匹配括号中的任意一个字符           eg:    [abc]d可以匹配ad、bd、cd
        -                  在[]范围内表示字符范围               eg:    [0-9a-zA-Z]可以匹配一位16进制数字
        ^                  位于[]括号内的开头,匹配
                        除括号中的字符之外的任意
                        一个字符                           eg:    [^xy]匹配除了xy之外的任一字符,因此[^xy]1可以匹配a1
        [[:xxx:]]        grep工具预定义的一些命名字符类     eg:    [[:alpha:]]匹配一个字母,[[:digit:]]匹配一个数字
        
    数量限定符
        ?                紧跟在它前面的单元应匹配零次或一次  eg:    [0-9]?\.[0-9]匹配0.0、2.3、.5等等
        +                紧跟在它前面的单元应匹配一次或多次  eg:    [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+ 匹配email地址
        *                紧跟在它前面的单元应匹配零次或多次  eg:    [0-9][0-9]*匹配至少一位数字,等价于[0-9]+, [a-zA-Z_]+[a-zA-Z_0-9]*
                                                                    匹配C语言的标识符
        {N}                紧跟在它前面的单元应精确匹配N次     eg:    [1-9][0-9]{2} 匹配100-999之间的整数
        {N,}            紧跟在它前面的单元应匹配至少N次     eg:     [1-9][0-9]{2,} 匹配三位以上(含三位)的整数
        {,M}            紧跟在它前面的单元应匹配最多M次     eg:     [0-9]{,1} 相当于[0-9]?
        {N,M}            紧跟在它前面的单元应匹配至少N次,
                        最多M次                                eg:     [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3} 匹配IP地址
                        
    再次注意grep找的是包含某一模式的行,而不是完全匹配某一模式的行。
    a*匹配0个或多个a,而第三行包含0个a,所以也包含了这一模式。    
    
    位置限定符
        ^                匹配行首的位置                                eg:    ^Content匹配位于一行开头的Content
        $                匹配行尾的位置                                eg:    ;$匹配位于一行结尾的;号,  ^$匹配空行
        \<                匹配单词开头的位置                            eg:    \<th匹配... this,但不匹配ethernet、tenth
        \>                匹配单词结尾的位置                            eg:    p\>匹配leap ...,但不匹配parent、sleepy
        \b                匹配单词开头或结尾的位置(单词的分界符)        eg:    \bat\b匹配... at ...,但不匹配cat、atexit、batch
        \B                匹配非单词开头和结尾的位置                    eg:    \Bat\B匹配battery,但不匹配... attend、hat...
        
    其他转义字符
        \                转义字符                            eg:    比如\写成\\  <写成\<   >写成\>  
        ()                将正则表达式的一部分括起来组成
                        一个单元,可以对整个单元使用
                        数量限定符                            eg:        ([0-9]{1,3}\.){3}[0-9]{1,3} 匹配IP地址
        |                连接两个子表达式,表示或的关系        eg:     n(o|either) 匹配no或neither
        
        Basic规范也有这些语法,只是字符?+{}|()应解释为普通字符,要表示上述特殊含义则需要加\转义。
    如果用grep而不是egrep,并且不加-E参数,则应该遵照Basic规范来写正则表达式。
    
sed
    sed意为流编辑器(Stream Editor),在Shell脚本和Makefile中作为过滤器使用非常普遍,也就是把前一个程序的输出
引入sed的输入,经过一系列编辑命令转换为另一种格式输出。sed和vi都源于早期UNIX的ed工具,所以很多sed命令和vi的末行命令是相同的。
    
    命令行的基本格式
        sed option 'script' file1 file2 ...
        sed option -f scriptfile file1 file2 ...
        sed处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,命令行参数可以一次传入多个文件,sed会依次处理。
    sed的编辑命令可以直接当命令行参数传入,也可以写成一个脚本文件然后用-f参数指定,编辑命令的格式为
        /pattern/action
        其中pattern是正则表达式,action是编辑操作。sed程序一行一行读出待处理文件,如果某一行与pattern匹配,则执行相应的action,
    如果一条命令没有pattern而只有action,这个action将作用于待处理文件的每一行。
    
    实际上这种匹配并不是完全匹配,只是在某一行中出现了匹配的字符。
    
    常见的sed命令
        /pattern/p                          打印匹配pattern的行
        /pattern/d                           删除匹配pattern的行,并不是真正的删除文件中的这一行
        /pattern/s/pattern1/pattern2/      查找符合pattern的行,将该行第一个匹配pattern1的字符串替换为pattern2(最后一个/不能省略)
        /pattern/s/pattern1/pattern2/g    查找符合pattern的行,将该行所有匹配pattern1的字符串替换为pattern2
        
        使用p命令需要注意,sed是把待处理文件的内容连同处理结果一起输出到标准输出的,
    因此p命令表示除了把文件内容打印出来之外还额外打印一遍匹配pattern的行。      sed '/123/p' test
        要想只输出处理结果,应加上-n选项,这种用法相当于grep命令     sed -n '/123/p' test
        使用d命令就不需要-n参数了.    sed '/123/d' test
        注意:sed命令不会修改原文件,删除命令只表示某些行不打印输出,而不是从原文件中删去。
    使用查找替换命令时,可以把匹配pattern1的字符串复制到pattern2中。
        比如sed 's/bc/-&-/' testfile    
            a-bc-
            pattern2中的&表示原文件的当前行中与pattern1相匹配的字符串
        比如sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile
            -1-~2~3
            abc
            -4-~5~6
            pattern2中的\1表示与pattern1的第一个()括号相匹配的内容,\2表示与pattern1的第二个()括号
        相匹配的内容。sed默认使用Basic正则表达式规范,如果指定了-r选项则使用Extended规范,那么()括号就不必转义了。
awk
    

      sed以行为单位处理文件,awk比sed强的地方在于不仅能以行为单位还能以列为单位处理文件。awk缺省的行分隔符是换行,
缺省的列分隔符是连续的空格和Tab,但是行分隔符和列分隔符都可以自定义,比如/etc/passwd文件的每一行有若干个字段,
字段之间以:分隔,就可以重新定义awk的列分隔符为:并以列为单位处理这个文件。awk实际上是一门很复杂的脚本语言,还有像C语
言一样的分支和循环结构,但是基本用法和sed类似,awk命令行的基本形式为:
    awk option 'script' file1 file2 ...
    awk option -f scriptfile file1 file2 ...
    和sed一样,awk处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,编辑命令可
以直接当命令行参数传入,也可以用-f参数指定一个脚本文件,编辑命令的格式为:
    /pattern/{actions}
    condition{actions}
    和sed类似,pattern是正则表达式,actions是一系列操作。awk程序一行一行读出待处理文件,如
果某一行与pattern匹配,或者满足condition条件,则执行相应的actions,如果一条awk命令只
有actions部分,则actions作用于待处理文件的每一行。比如文件testfile的内容表示某商店的库存量:
        ProductA 30
        ProductB 76
        ProductC 55
    打印每一行的第二列:
        $ awk '{print $2;}' testfile
        30
        76
        55
    自动变量$1、$2分别表示第一列、第二列等,类似于Shell脚本的位置参数,而$0表示整个当前行。
再比如,如果某种产品的库存量低于75则在行末标注需要订货:
    $ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile
    ProductA 30 REORDER
    ProductB 76
    ProductC 55 REORDER
    
    awk命令可以像C语言一样使用变量(但不需要定义变量),比如统计一个文件中的空行数:
        $ awk '/^ *$/ {x=x+1;} END {print x;}' testfile
        
    awk常用的内建命令
        FILENAME     当前输入文件的文件名,该变量是只读的
        NR             当前行的行号,该变量是只读的,R代表record
        NF             当前行所拥有的列数,该变量是只读的,F代表field
        OFS         输出格式的列分隔符,缺省是空格
        FS             输入文件的列分融符,缺省是连续的空格和Tab
        ORS             输出格式的行分隔符,缺省是换行符
        RS             输入文件的行分隔符,缺省是换行符
    例如打印系统中的用户帐号列表
        $ awk 'BEGIN {FS=":"} {print $1;}' /etc/passwd
        
        
       

猜你喜欢

转载自blog.csdn.net/sustzc/article/details/82734749