正規表現の詳細(A)

シェルプログラミング正規表現とファイルプロセッサ

スキルを示しています。

-基础正则表达式
-扩展正则表达式
-sed 工具使用方法
-awk 工具使用方法

正規表現

之前学习了 Shell 脚本的基础用法,已经可以利用条件判断、循环等语句编辑 Shell 脚本。接下来我们将开始介绍一个很重要的概念——正则表达式(RegularExpression,RE)。  

1つの正規表現の概要

下面先来了解一下正则表达式的定义及用途。

1.正規表現の定義

 正则表达式又称正规表达式、常规表达式。在代码中常简写为 regex、regexp 或 RE。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,简单来说, 是一种匹配字符串的方法,通过一些特殊符号,实现快速查找、删除、替换某个特定字符串。
正则表达式是由普通字符与元字符组成的文字模式。模式用于描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。其中普通字符包括大小写字母、数字、标点符号及一些其他符号,元字符则是指那些在正则表达式中具有特殊意义的专用字符,可以用来规定其前导字符(即位于元字符前面的字符)在目标对象中的出现模式。
正则表达式一般用于脚本编程与文本编辑器中。很多文本处理器与程序设计语言均支持正则表达式,如前面提到的 Perl、Linux 系统中常见的文本处理器(grep、egrep、sed、awk)。正则表达式具备很强大的文本匹配功能,能够在文本海洋中快速高效地处理文本。

2.正規表現の使用

对于一般计算机用户来说,由于使用到正则表达式的机会不多,所以无法体会正则表达式的魅力,而对于系统管理员来说,正则表达式则是必备技能之一。
正则表达式对于系统管理员来说是非常重要的,系统运行过程中会产生大量的信息,这些信息有些是非常重要的,有些则仅是告知的信息。身为系统管理员如果直接看这么多的信息数据,无法快速定位到重要的信息,如“用户账号登录失败”“服务启动失败”等信息。这时可以通过正则表达式快速提取“有问题”的信息。如此一来,可以将运维工作变得更加简单、方便。
目前很多软件也支持正则表达式,最常见的就是邮件服务器。在 Internet 中,垃圾/

广告邮件经常会造成网络塞车,如果在服务器端就将这些问题邮件提前剔除的话,客户端就会减少很多不必要的带宽消耗。而目前常用的邮件服务器 postfix 以及支持邮件服务器的相关分析软件都支持正则表达式的比对功能。将来信的标题和内容与特殊字符串进行对比,发现问题邮件就过滤掉。
除邮件服务器之外,很多服务器软件都支持正则表达式。虽然这些软件都支持正则表达式,不过字符串的对比规则还需要系统管理员来添加,所以作为系统管理员,正则表达式是必须掌握的技能之一。

3つの基本的な正規表現

正则表达式的字符串表达方法根据不同的严谨程度与功能分为基本正则表达式与扩展正则表达式。基础正则表达式是常用的正则表达式的最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式,而 egrep 与 awk 支持扩展正则表达式。掌握基础正则表达式的使用方法,首先必须了解基本正则表达式所包含的元字符的含义,下面通过 grep 命令以举例的方式逐个介绍。
  • 正規表現の基礎の例として
    、特定のコンテンツファイルに示すように、次の操作は、事前test.txtという名前のテストファイルを準備する必要があります。
[root@localhost ~]# cat test.txt he was short and fat.
He was wearing a blue polo shirt with black pants. The home of Football on BBC Sport online.
the tongue is boneless but it breaks bones.12! google is the best tools for search keyword.
The year ahead will test our political establishment to the limit.
PI=3.141592653589793238462643383249901429
a wood cross!
Actions speak louder than words

#woood # #woooooood # AxyzxyzxyzxyzC
I bet this place is really spooky late at night! Misfortunes never come alone/single.

I shouldn't have lett so tast.
  • 特定の文字を見つけ
    、あなたがtest.txtというファイルから「」の位置特定の文字を見つけるために、次のコマンドを実行することができますように、特定の文字は、非常に簡単です見つけるために。ここで「-n」は、表示行数を表し、「 - i」は大文字と小文字を区別を表します。コマンドが実行された後、文字が一致基準を満たす、フォントの色が赤(章代わり介してすべての太字)をオンにします。
[root@localhost ~]# grep -n 'the' test.txt 4:the tongue is boneless but it breaks bones.12! 5:google is the best tools for search keyword.
6:The year ahead will test our political establishment to the limit. [root@localhost ~]# grep -in 'the' test.txt
3:The home of Football on BBC Sport online. 4:the tongue is boneless but it breaks bones.12! 5:google is the best tools for search keyword.
6:The year ahead will test our political establishment to the limit.
 若反向选择,如查找不包含“the”字符的行,则需要通过 grep 命令的“-vn”选项实现。
[root@localhost ~]# grep -vn 'the' test.txt 1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. 3:The home of Football on BBC Sport online.
7:PI=3.141592653589793238462643383249901429
8:a wood cross!
9:Actions speak louder than words 10:
11:#woood # 12:#woooooood # 13:AxyzxyzxyzxyzC
14:I bet this place is really spooky late at night! 15:Misfortunes never come alone/single.

16:I shouldn't have lett so tast.
  • 括弧の使用「[]」の文字の集合を見つけるために
    あなたが「シャツ」を検索したい場合には「短い」2つの文字列が2列に記載されていますが、「SH」と「RT」が含まれています。同時に「シャツ」と「ショート」2つの文字列を検索するには、次のコマンドを実行します。「[]」にかかわらず、文字の数は、「[IO]」一致「I」または「O」を意味することを、文字のみを代表するものです。
[root@localhost ~]# grep -n 'sh[io]rt' test.txt 1:he was short and fat.
2:He was wearing a blue polo shirt with black pants.
 若要查找包含重复单个字符“oo”时,只需要执行以下命令即可。
[root@localhost ~]# grep -n 'oo' test.txt 3:The home of Football on BBC Sport online. 5:google is the best tools for search keyword. 8:a wood cross!
11:#woood # 12:#woooooood #
14:I bet this place is really spooky late at night!
 若查找“oo”前面不是“w”的字符串,只需要通过集合字符的反向选择“[^]”来实现该目的,如执行“grep –n‘[^w]oo’test.txt”命令表示在 test.txt 文本中查找“oo” 前面不是“w”的字符串。
[root@localhost ~]# grep -n '[^w]oo' test.txt 3:The home of Football on BBC Sport online. 5:google is the best tools for search keyword. 11:#woood #
12:#woooooood #
14:I bet this place is really spooky late at night!
在上述命令的执行结果中发现“woood”与“wooooood”也符合匹配规则,二者均包含“w”。其实通过执行结果就可以看出,符合匹配标准的字符加粗显示,而上述结果中可以得知,“#woood #”中加粗显示的是“ooo”,而“oo”前面的“o”是符合匹配规则的。同理 “#woooooood #”也符合匹配规则。
若不希望“oo”前面存在小写字母,可以使用“grep –n‘[^a-z]oo’test.txt”命令实现,其中“a-z”表示小写字母,大写字母则通过“A-Z”表示。

[root@localhost ~]# grep -n '[^a-z]oo' test.txt 3:The home of Football on BBC Sport online.

查找包含数字的行可以通过“grep –n‘[0-9]’test.txt”命令来实现。
[root@localhost ~]# grep -n '[0-9]' test.txt 4:the tongue is boneless but it breaks bones.12! 7:PI=3.141592653589793238462643383249901429
  • 「$」ライン歌「^」と行末文字を検索する
    「^」(最初の行)と「$」(行の末尾):基礎正規表現は、2つの位置決めメタ文字が含まれています。上記の例では、クエリが「」の多くを含む文字列があったあなたは線ストリング・ラインの「」先頭をチェックインしたい場合は、「」インライン、あなたが達成するために「^」メタ文字を使用することができます。

[root@localhost ~]# grep -n '^the' test.txt 4:the tongue is boneless but it breaks bones.12!

 查询以小写字母开头的行可以通过“^[a-z]”规则来过滤,查询大写字母开头的行则使用“^[A-Z]”规则,若查询不以字母开头的行则使用“^[^a-zA-Z]”规则。
[root@localhost ~]# grep -n '^[a-z]' test.txt 1:he was short and fat.
4:the tongue is boneless but it breaks bones.12! 5:google is the best tools for search keyword. 8:a wood cross!
[root@localhost ~]# grep -n '^[A-Z]' test.txt
2:He was wearing a blue polo shirt with black pants. 3:The home of Football on BBC Sport online.
6:The year ahead will test our political establishment to the limit. 7:PI=3.141592653589793238462643383249901429
9:Actions speak louder than words 13:AxyzxyzxyzxyzC
14:I bet this place is really spooky late at night! 15:Misfortunes never come alone/single.
16:I shouldn't have lett so tast.
[root@localhost ~]# grep -n '^[^a-zA-Z]' test.txt 11:#woood #
12:#woooooood #
 “^”符号在元字符集合“[]”符号内外的作用是不一样的,在“[]”符号内表示反向选择,在“[]”符号外则代表定位行首。反之,若想查找以某一特定字符结尾的行则可以使用“$”定位符。例如,执行以下命令即可实现查询以小数点(.)结尾的行。因为小数点(.) 在正则表达式中也是一个元字符(后面会讲到),所以在这里需要用转义字符“\”将具有特 殊意义的字符转化成普通字符。
[root@localhost ~]# grep -n '\.$' test.txt 1:he was short and fat.
2:He was wearing a blue polo shirt with black pants. 3:The home of Football on BBC Sport online.
5:google is the best tools for search keyword.
6:The year ahead will test our political establishment to the limit. 15:Misfortunes never come alone/single.
16:I shouldn't have lett so tast.
 当查询空白行时,执行“grep –n‘^$’test.txt”命令即可。

[root@localhost ~]# grep -n '^$' test.txt 10:

  • 「任意の文字を検索」繰り返し文字「*」
    先に述べたように、正式の小数点(。)メタ文字で、任意の1つの文字を表します。例えば、W D終わりから始まる、すなわち4つの文字の合計、「?? D w」の文字列を検索するには、次のコマンドを実行します。
[root@localhost ~]# grep -n 'w..d' test.txt 5:google is the best tools for search keyword. 8:a wood cross!
9:Actions speak louder than words
 在上述结果中,“wood”字符串“w..d”匹配规则。若想要查询 oo、ooo、ooooo 等资料,则需要使用星号(*)元字符。但需要注意的是,“*”代表的是重复零个或多个前面的单字符。“o*”表示拥有零个(即为空字符)或大于等于一个“o”的字符,因为允许空字符,所以执行“grep –n‘o*’test.txt”命令会将文本中所有的内容都输出打印。如果是“oo*”, 则第一个 o 必须存在,第二个 o 则是零个或多个 o,所以凡是包含 o、oo、ooo、ooo,等的资料都符合标准。同理,若查询包含至少两个 o 以上的字符串,则执行“grep –n‘ooo*’ test.txt”命令即可。
[root@localhost ~]# grep -n 'ooo*' test.txt 3:The home of Football on BBC Sport online. 5:google is the best tools for search keyword. 8:a wood cross!
11:#woood # 12:#woooooood #
14:I bet this place is really spooky late at night!
查询以 w 开头 d 结尾,中间包含至少一个 o 的字符串,执行以下命令即可实现。
[root@localhost ~]# grep -n 'woo*d' test.txt 8:a wood cross!
11:#woood # 12:#woooooood #
 查询以 w 开头 d 结尾,中间的字符可有可无的字符串。
[root@localhost ~]# grep -n 'w.*d' test.txt 1:he was short and fat.
5:google is the best tools for search keyword. 8:a wood cross!
9:Actions speak louder than words 11:#woood #
12:#woooooood #
 查询任意数字所在行。
[root@localhost ~]# grep -n '[0-9][0-9]*' test.txt 4:the tongue is boneless but it breaks bones.12! 7:PI=3.141592653589793238462643383249901429
  • 「}、{」連続した文字の範囲を探す
    ものの範囲を限定することを意図している場合、 『*』文字の繰り返しの無限複数にゼロに設定されている「」上記の例では、我々が使用すると、文字列が繰り返されますそれを達成するには?例えば、3〜5個の連続した文字は、通常の文字に基づいて、この時間は、式の範囲を制限する必要がOを見つけるために「{}」。「{}」の文字を使用するとき、「{}」シェルで特別な意味を持っているので、ので、エスケープ文字「\」、普通の文字に「{}」の文字を使用する必要があります。「{}」次の文字に示される方法を使用。
    (1)クエリの2文字のO。
[root@localhost ~]# grep -n 'o\{2\}' test.txt 3:The home of Football on BBC Sport online. 5:google is the best tools for search keyword. 8:a wood cross!
11:#woood # 12:#woooooood #
14:I bet this place is really spooky late at night!

(2)Wクエリで始まること2-5 O文字列を含む中間体、Dで終わります。

[root@localhost ~]# grep -n 'wo\{2,5\}d' test.txt 8:a wood cross!
11:#woood #

(3)は、2つの以上の中間O文字列を含む、D wを開始クエリで終わります。

[root@localhost ~]# grep -n 'wo\{2,\}d' test.txt 8:a wood cross!
11:#woood # 12:#woooooood #

メタキャラクタの概要

 通过上面几个简单的示例,我们可以了解到常见的基础正则表达式的元字符主要包括以下几个,如表所示。
メタキャラクタ 効果
^ 文字列の先頭にマッチします。ブラケット表現を使用して、彼らは文字のセットを含んでいないと述べました。
$ 入力文字列の終了位置を一致させます。
である「の\ r \ n」以外の任意の1文字にマッチ
|次の文字は特殊文字、リテラル文字、後方参照、進エスケープとしてマークされています。
* 先行部分式0回以上一致します。「マッチさせるには、\」文字を使用します「
[] 文字のセット。任意の文字が含ま一致します。例えば、「A」の「[ABC]」マッチ「普通」
[^] 文字のセットを割り当てられました。含まれていない任意の文字がマッチします。
[N1-N2] 文字の範囲。指定された範囲内の任意の1つの文字に一致します。
{N} それは非負整数nは、n番目のマッチング決意
{N} 負でない整数であるN、少なくともn回一致。
N、M mおよびnは負でない整数で、N <= M、最小のマッチングであり、n回m回一致

拡張正規表現

通常情况下会使用基础正则表达式就已经足够了,但有时为了简化整个指令,需要使用范围更广的扩展正则表达式。例如,使用基础正则表达式查询除文件中空白行与行首为“#” 之外的行(通常用于查看生效的配置文件),执行“grep –v‘^$’test.txt | grep –v ‘^#’”即可实现。这里需要使用管道命令来搜索两次。如果使用扩展正则表达式,可以简化为“egrep –v‘^$|^#’test.txt”,其中,单引号内的管道符号表示或者(or)。
此外,grep 命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep 或 awk 命令。awk 命令在后面的小节进行讲解,这里我们直接使用 egrep 命令。egrep 命令与 grep 命令的用法基本相似。egrep 命令是一个搜索文件获得模式,使用该命令可以搜索文件中的任意字符串和符号,也可以搜索一个或多个文件的字符串,一个提示符可以是单个字符、一个字符串、一个字或一个句子。
与基础正则表达式类型相同,扩展正则表达式也包含多个元字符,常见的扩展正则表达式的元字符主要包括以下几个,如表  所示。
コラム1 コラム2
+ 一つ前の文字を繰り返し
ゼロまたは直前の文字の1
リットル または方法は、複数の文字を見つけるために(または)を使用するには
() 「グループ」の文字列を検索します
()+ 反復する複数のグループを識別する

おすすめ

転載: blog.51cto.com/14469918/2440566