正規表現のフォーマット

参照   PY爬虫類を- PY爬虫類ライブラリの再基礎を

正規表現パターン

正規表現を表現するために特別な構文を使用したパターン文字列:

文字と数字そのものを表しています。同じ英数字の文字列にマッチする正規表現パターン。

とき、バックスラッシュの前にほとんどの文字と数字は異なる意味を持つことになります。

試合自体は、そうでない場合、彼らは特別な意味を表すとき、句読点のみがエスケープされます。

バックスラッシュ自体はバックスラッシュエスケープを使用する必要があります。

正規表現は、通常、バックスラッシュを含んでいるので、あなたがそれらをよりよく表現するために、元の文字列を使用すると思います。モード要素(例えば、R&LT '\ T'に相当する、\\ Tは)対応する特殊文字に一致します。

以下の表は、特別な要素の正規表現パターンの構文を示しています。あなたはモードは、オプションのflagsパラメータを提供して使用する場合は、パターンの特定の要素の意味が変更されます。

モード 説明
^ 文字列の先頭にマッチします
$ 文字列の末尾にマッチします。
改行以外の任意の文字と一致re.DOTALLフラグが指定されている場合、それは任意の文字が改行を含んで一致します。
[...] 別途記載されている文字のグループを表すために使用される:[AMK]マッチ「A」、「M」または「K」
[^ ...] ない[]文字数:[^ ABC]、B、Cの文字にマッチすることに加えて。
*再 表現のゼロ個以上のマッチ。
+再 表現の一つ以上を一致させます。
再? 前述の正規表現定義された断片、非貪欲な方法によって一致0または1
{n}は再 nは前述の式に一致します。例えば、「oは{2}」「O」の「ボブ」に一致しないが、二つのOで「食物」と一致することができます。
{n}は再 ちょうどn前述の式に一致します。例えば、「O {2}」「O」の「ボブ」に一致しないが、それはのすべてのO「foooood」と一致することができます。"O {1}" "O +" に相当します。"O {0}" "入出力*" に相当します。
再{N、M} N m回前の定義セグメントによって正規表現と一致するように、貪欲方法
| B またはbにマッチします
(再) 括弧内の式と一致する、また基を表します
(?IMX) I、M、またはX:任意の正規表現は、3つのフラグを含みます。それだけで地域の括弧に影響を与えます。
(?-imx) I、M、X、または任意のフラグをオフREGEX。それだけで地域の括弧に影響を与えます。
(?:再) (...)似ていますが、グループを表すものではありません。
(IMX:?再) 括弧内I、M、X、またはオプションフラグを使用
(-imx:?再) I、括弧内のM用いる、あるいはXをマークしません
(?#...) コメント。
(?=再) 区切り文字の前に必ずします。正規表現が順番に含まれている場合は...現在のマッチ位置の成功の成功は、それ以外の場合は失敗しました。しかし、一度に含まれる表現は、マッチングエンジンは進まない、試みられてきたが、パターンの残りの部分は、さらに右の区切り文字をしようとしています。
(?!再) 負の前に区切り文字。そして、反対の正のアサーション;文字列に含まれる式は、ときに現在の位置が一致し成功することはできません。
(?>再) 独立したパターンマッチング、バックトラックを排除します。
\ワット マッチ英数字、アンダースコア
\ W 英数字以外のアンダースコアをマッチング
\ sの マッチ[\ T \ n \ R \ F]に相当する空白文字を、。
\ S 任意の非空白文字にマッチします
\ dは 任意の数と一致し、[0-9]と等価です。
\ D 任意の非数字にマッチします
\ A マッチング文字列の開始
\ Z それが唯一のラップに文字列の一致の終了前に、ラップであれば、文字列の末尾にマッチします。
\ Z 一致文字列の末尾
\ G 最後の試合は、マッチ位置を完了します。
\ B つまり、単語間の位置とスペースを指し、ワード境界に一致します。例えば、「ERの\ bは、」「ER」内のER「」とは一致しません「動詞」で「決して」と一致しません。
\ B 非ワード境界に一致します。ER「\ B」マッチ「動詞」「えー」ではなく、「絶対」「ER」では一致しません。
その上、\ N、\ tの、と。 改行にマッチします。整合タブ、等
\ 1 ... \ 9 n番目のパケットを照合します。
\ 10 それが一致した場合、n番目のパケットを照合します。それ以外の場合は、式が進文字コードを指します。

正規表現の例

文字の一致

説明
パイソン 「パイソン」をマッチング。

文字クラス

説明
[PP] ython 「パイソン」または「パイソン」をマッチング
こする[がた] マッチング「ルビー」または「ルーブ」
[AEIOU] 括弧内の文字のいずれかにマッチします
[0-9] 任意の数字にマッチします。同様に[0123456789]
[AZ] 任意の小文字にマッチします
[AZ] すべての大文字にマッチします
[A-ZA-Z0-9] 任意の文字と数字を照合し
[^ AEIOU] 手紙AEIOUを除くすべての文字
[^ 0-9] 文字に一致する番号に加えて、

特殊文字クラス

説明
「\ n」以外の任意の1文字に一致しています。一致させるために使用などの任意の文字を含む「\ n」は、含ま「[を。\ N]」モード。
\ dは 桁の文字と一致します。[0-9]に相当します。
\ D 数字以外の文字をマッチング。これは[^ 0-9]と同じです。
\ sの その上、スペース、タブ、改ページ、およびを含む任意の空白文字にマッチします。[\ F \ nは\ rを\トン\ V]に相当します。
\ S 任意の非空白文字にマッチします。等価である[^ \ F \ nは\ rを\トン\ V]。
\ワット アンダースコアを含む任意の単語文字と一致します。それは[A-ZA-Z0-9_] 'と等価です。
\ W 任意の非単語文字と一致します。これは、 '[^ A-ZA-Z0-9_]' と等価です。

 

おすすめ

転載: www.cnblogs.com/Nlifea/p/11761511.html