04异或，通配符与正则表达式

本文主要内容：grep文本搜索工具与正则表达式，egrep扩展与正则表达式（linux三剑客之grep）

1、交换两个数值

java编程里面交换两个数值是

int a=1 , b=2

tmp=a

a=b

b=tmp

异或^ (相同为假，不同为真，二进制0代表假，1代表真。0^1=1,0^0=0,1^1=0）

centos7中算术运算命令let 或者$[ ]

linux中运行如下命令

a=6;b=8;① a=$[a^b];② b=$[a^b];③ a=$[a^b];echo $a;echo $b

二进制a：0000 0110

二进制b：0000 1000

a^b 异或结果：0000 1110

① a=$[a^b]=0000 1110

② b=$[a^b]=0000 1110 ^ 0000 1000 = 0000 0110=6

② a=$[a^b]=0000 1110 ^ 0000 0110 = 0000 1000=8

2、通配符

文件通配符

• *匹配零个或多个字符

• ?匹配任何单个字符

• ~ 当前用户家目录

• ~dhy用户dhy家目录

• ~+当前工作目录

• ~-前一个工作目录

• [0-9]匹配数字范围

• [a-z]：字母

• [A-Z]：字母

• [what]匹配列表中的任何的一个字符

• [^what] 匹配列表中的所有字符以外的字符

• 预定义的字符类：man 7 glob

[:digit:]：任意数字，相当于0-9

[:lower:]：任意小写字母

[:upper:]: 任意大写字母

[:alpha:]: 任意大小写字母

[:alnum:]：任意数字或字母

[:blank:]：水平空白字符

[:space:]：水平或垂直空白字符

[:punct:]：标点符号

[:print:]：可打印字符

[:cntrl:]：控制（非打印）字符

[:graph:]：图形字符

[:xdigit:]：十六进制字符

3、grep

• grep: Global search REgular expression and Print out the line

作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行

模式：由正则表达式字符及文本字符所编写的过滤条件

• grep [OPTIONS] PATTERN [FILE...]

grep root /etc/passwd

grep "$USER" /etc/passwd

grep '$USER' /etc/passw

d grep `whoami` /etc/passwd

grep命令选项

• --color=auto: 对匹配到的文本着色显示

• -v: 显示不被pattern匹配到的行

• -i: 忽略字符大小写

• -n：显示匹配的行号

• -c: 统匹配的行数

• -o: 仅显示匹配到的字符串

• -q: 静默模式，不输出任何信息

• -A #: after, 后#行

• -B #: before, 前#行

• -C #：context, 前后各#行

• -e：实现多个选项间的逻辑or关系

grep –e ‘cat ’ -e ‘dog’ file

• -w：匹配整个单词

• -E：使用ERE

• -F：相当于fgrep，不支持正则表达式

4、正则表达式

• REGEXP：由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能

• 程序支持：grep,sed,awk,vim,less,nginx,varnish等

• 分两类：

基本正则表达式：BRE

扩展正则表达式：ERE

grep -E, egrep

• 正则表达式引擎：

采用不同算法，检查处理正则表达式的软件模块

PCRE（Perl Compatible Regular Expressions）

• 元字符分类：字符匹配、匹配次数、位置锚定、分组

• man 7 regex

基本正则表达式元字符

字符匹配:

. 匹配任意单个字符

[] 匹配指定范围内的任意单个字符

[^] 匹配指定范围外的任意单个字符

[:alnum:] 字母和数字

[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z

[:lower:] 小写字母 [:upper:] 大写字母

[:blank:] 空白字符（空格和制表符）

[:space:] 水平和垂直的空白字符（比[:blank:]包含的范围广）

[:cntrl:] 不可打印的控制字符（退格、删除、警铃...） [:digit:] 十进制数字 [:xdigit:]十六进制数字

[:graph:] 可打印的非空白字符

[:print:] 可打印字符

[:punct:] 标点符号

匹配次数：用在要指定次数的字符后面，用于指定前面的字符要出现的次数

* 匹配前面的字符任意次，包括0次

贪婪模式：尽可能长的匹配

.* 任意长度的任意字符

\? 匹配其前面的字符0或1次

\+ 匹配其前面的字符至少1次

\{n\} 匹配前面的字符n次

\{m,n\} 匹配前面的字符至少m次，至多n次

\{,n\} 匹配前面的字符至多n次

\{n,\} 匹配前面的字符至少n次

位置锚定：定位出现的位置

^ 行首锚定，用于模式的最左侧

$ 行尾锚定，用于模式的最右侧

^PATTERN$ 用于模式匹配整行

^$ 空行

^[[:space:]]*$ 空白行

\< 或 \b 词首锚定，用于单词模式的左侧

\> 或 \b 词尾锚定；用于单词模式的右侧

\<PATTERN\> 匹配整个单词

分组与后向引用

• 分组： 将一个或多个字符捆绑在一起，当作一个整体进行处理，如：$root$\+

• 分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为

: \1, \2, \3, ...

• \1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符

• 示例： $string1\+\(string2$*\)

\1 ：string1\+$string2$*

\2 ：string2

• 后向引用：引用前面的分组括号中的模式所匹配字符，而非模式本身

• 或者：\|

示例：a\|b: a或b C\|cat: C或cat $C\|c$at:Cat或cat

元字符定义

^ 行首

$ 行尾

. 任意单一字符

[] []内任意单一字符

[^] 除[]内任意单一字符

* *前面字符重复不确定次数

\+ \+前面字符重复一次以上不确定次数

\? ？前面字符重复0或1次

\ 转义符

.* 任意长度字符

\{n\} 前面字符重复n次

\{n,\} 前面字符重复n次以上

\{m,n\} 前面字符重复m次和n次之间

[:alnum:] 字母和数字

[:alpha:] 代表任何英文大小写字符，亦即 A-Z, a-z

[:lower:] 小写字母

[:upper:] 大写字母

[:blank:] 水平空白字符（空格和制表符）

[:space:] 所有水平和垂直的空白字符（比[:blank:]包含的范围广）

[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）

[:digit:] 十进制数字

[:graph:] 可打印的非空白字符

[:print:] 可打印字符

[:punct:] 标点符号

[:xdigit:] 十六进制数字

5、egrep及扩展的正则表达式

• egrep = grep -E

• egrep [OPTIONS] PATTERN [FILE...]

• 扩展正则表达式的元字符：

v 字符匹配：

. 任意单个字符

[] 指定范围的字符

[^] 不在指定范围的字符

次数匹配：

*：匹配前面字符任意次

?: 0或1次

+：1次或多次

{m}：匹配m次

{m,n}：至少m，至多n次

位置锚定：

^ :行首

$ :行尾

\<, \b :语首

\>, \b :语尾

分组：

()

后向引用：\1, \2,...

• 或者：

a|b: a 或 b

C|cat: C或cat

(C|c)at:Cat或cat