Pythonの正規表現規則の一部をマッチング

1.概要正規表現
正規表現は、文字列操作の論理式は、それは、特定の事前定義された文字の組み合わせ、およびこれらの特定の文字を使用して「文字列のルール」を形成することである。この「ルール文字列であります「フィルタリングロジックは、文字列を表現するために使用しました。

正規表現は、文字列の非常に強力なツール、他のプログラミング言語で正規表現の同じ概念を一致させるために使用されている、Pythonは例外、正規表現を使用し、我々は復帰したいというページコンテンツから抽出したいんコンテンツに簡単にできるように。

正規表現は大体マッチング処理されています。
表現の1の比較を文字とテキストを思い付くためには、
2各文字が一致することができれば、その後、マッチは成功し、一致しない場合、一致の文字が失敗します。
3.表現数量詞や境界がある場合は、このプロセスは、いくつかは少し異なるがあります。

正規表現の2文法規則
ここでは、いくつかのPythonの正規表現のマッチングルールですPythonの正規表現規則の一部をマッチング

20130515113723855

3.正規表現に関連した注釈
(1)および非貪欲数量貪欲パターン
文字列は、典型的には、テキストの正規表現マッチングを見つけるために使用されます。デフォルトの数量詞でPythonは(少数民族の言語でもデフォルトで非欲張りかもしれない)、常に多くの文字と一致させようと貪欲であり、非貪欲、対照的に、常に数文字と一致してみてください。たとえば、次の正規表現「AB 」「ABBBC」を見つけるために使用される場合、「ABBB」でしょう。非貪欲数量詞「ABを使用した場合は?」、あなたは「」でしょう。

注:私たちは、一般的に抽出物に非貪欲モードを使用します。

(2)は、問題をスラッシュ
問題はバックスラッシュ引き起こす可能性がエスケープ文字として正規表現を「\」を使用し、ほとんどのプログラミング言語と同じ。プログラミング言語でエスケープするために使用されている最初の2つと最後の2つを:あなたは、テキスト文字を「\」と一致する必要がある場合は、4つのバックスラッシュを「\\」が必要となる正規表現のプログラミング言語表現を使いますバックスラッシュ、バックスラッシュなどして、正規表現でバックスラッシュのようにエスケープ2に変換します。

Pythonは元の文字列で、この問題に対する良い解決策は、このケースでは、あなたは、正規表現は「\」の表現rを使用することができます。同様に、マッチの数「\ d」は、R「\ D」のように書くことができます。ネイティブ文字列、ママ、心配はバックスラッシュを逃していないしていない、書かれた表現でより直感的なル付き

[Pythonの爬虫類を学習分散 - 基礎から実戦まで]

おすすめ

転載: blog.51cto.com/12486145/2452596