正規表現:
定期Experssionは、強力で便利で効率的なテキスト処理ツールです。正規表現自体、プラス汎用プログラミング言語のポケットサイズのモデル表現(一般パッテン表記)として、ユーザーに特定のツールの追加支援を受けて、テキストを記述し、分析する能力を与えて、正規表現を追加することができ、削除、 、分離、トリミング、テキストや各種データの挿入、スタッキング。
正規表現の実用的な問題解決:
- マルチワード文書、複雑なフィルタ基準。
- テキストフィルタリング
- マッチング条件
テキスト検索ツールのegrep:
- egrep:使用例「^(から|件名):」メールボックスファイル:ファイルは、メッセージの先頭には件名、日付、から行の先頭で一致し、かつ目的がメーリングリストを生成するために取ることです
- メール内容:メール-01.txt
:リンク 件名:ドラゴンボートフェスティバル祝福のメール 日:2019年6月7日 ここでは、メッセージのボディであります...
- 実際の結果:
7ac72269c-ZBMAC:ドキュメントリンクの$ egrepの'^(から|件名|日):'メール-01 .TXT から:リンク 件名:ドラゴンボートフェスティバルの祝福メール 日: 2019年6月7日 ZBMAC -7ac72269c:ドキュメントのリンク$
- 式を解釈します^キャレットは、テキストの先頭にマッチする正規表現のメタ文字の一つです。()の発現の作用の範囲を規定しています。|手段「または」の意味。
メタキャラクタの知識:
起動し、行の末尾:
- テキストの行をチェックすると、^ラインのライン$代表の終わりの始まりを表します。
- テキストが続くトン続いラインとしてCの最初の文字に基づいて、例えば、^猫の試合、:正規表現に基づいて文字を理解するための最良の習慣リーダー。
文字グループ
- いくつかの文字のいずれかに一致する:[ABC]を、それが一致は、B、またはCを表します。
- 例: '<H [123456]は>' <H1>、<H2>、<H3>から<H6>タグを一致させるために使用されます。
- 文字要素の文字は「 - 」範囲を示しています。上記の例では、最初ではなく、メタ文字としてハイフン、「<H [1-6]>」に変更してもよいです。
- [A-Za-z]は同様の範囲を示しています。注意:唯一の文字セットでは、「 - 」元の文字です。
- 否定文字グループ:[^ ...]、文字セット内のキャレット^は、文字が記載されていない表す文字セットと一致したとき。
任意の文字に一致します。
- 「」ポイントは、任意の文字に一致します。
- しかし、文字のグループでは、メタ文字でありません。注:内側と外側、メタ文字の文字セットの定義と意味は同じではありません。
単語の区切り文字:
- '\ <' と '\>'
- 自身の署名よりも少ないの署名を上回るだけでメタ文字の後にスラッシュと一緒に、メタ文字ではありません。
- egrepのサポートこのメタ文字のないすべてのバージョン。
メタキャラクタの要約:
メタ文字は1文字にマッチします |
||
。 | ポイント番号 | 任意の1文字に一致します |
[...] | 文字グループ | 記載された単一の文字にマッチ |
[^ ...] | 否定文字セット | マッチ単一の文字が記載されていません |
\文字 | エスケープ文字 | charがメタ文字やシーケンスには特別な意味をエスケープされていない場合は、通常の文字は、対応する文字にマッチします |
これは、カウント機能のメタ文字を提供します |
||
? | 疑問符 | 試合を許可するが、必須ではありません |
* | アスタリスク | 何度でも一致させることができ、それが一致しない場合があります |
+ | プラス | あなたは少なくとも一度は、最も可能性が高い回の任意の数と一致する必要があります |
{MIN、MAX} | インターバル数量詞(egrepのサポートのないすべてのバージョン) | 少なくとも分で、最も時間許容最大で |
文字マッチした位置 |
||
^ | 脱字符 | 行の先頭にマッチします |
$ | ドル記号 | 行の末尾をマッチング |
\ < | 単語の区切り(egrepのサポートのないすべてのバージョン) | リストの開始位置をマッチング |
\> | 単語の区切り(egrepのサポートのないすべてのバージョン) | 終了位置に一致する言葉 |
その他のメタキャラクタ | ||
| | 交代 | 式のいずれかで区切ったリストを照合します |
(...) | カッコ | 数量詞の要素によって示される範囲を規定交代は、逆参照は、テキストを「捕捉」します。 |
\1,\2,... | 反向引用(非所有版本egrep都支持) | 匹配之前的第一、第二组括号内的字符表达式,匹配的文本 |
文章属于读《精通正则表达式》一书的笔记,写的相对比较粗略,书中描述的比较细致,整个入门就占用的一章的笔墨,但是对于没有一点基础的非常适合。这里列出了正则表达式的元字符,掌握了这些,应对常用的正则表达式的书写基本够用了。
比较受用的思想就是:注意正则表达式是以字符为单元的,所有的元字符限定权限都是作用于前一个字符或者表达式。
正则表达式术语汇总
正则:regex(regular expression)
匹配:matching
元字符:metacharacter
流派:flavor
子表达式:subexpression
字符:character