1、定期的に
正規表現:通常の文字列の一致は、最初から最後まで一致しています
文字グループ:[]文字の文字がXianchuyuanxing特殊文字を設定して一致した、以外の文字にマッチし、[^ A]、^非を表し、
元の文字:
\ D:数字の\ Dにマッチ:他の数字以外の文字が一致
\ W:一致する数字、文字、\ Wはアンダースコア:その他の非文字照合番号を、文字、下線
\ Sは:空間に一致する、\ nは、\ T \ S:非空間マッチング、\ Nの\ tのコンテンツ
[\ S \ S] [\ D \ D] [\ W \ W]:一致するすべての文字
。:改行以外のすべての文字にマッチします
^:一般的に正規表現の先頭に表示されるものを、で始まります
$:何最後に示し、一般的に、正規表現の最後に表示されます
\ B:境界(前と後の文字列)に一致します
\:特殊文字が一致エスケープ
| B:マッチングまたはBは、発見した後、唯一の結果を移動しない、(長さに適合されないコンテンツの背面に)長い前面に重複し、一致する二つの規則が存在する場合
数量詞:
何も開始文字列の文字を持っていません
{N}は先行する正規表現の1倍の数と一致を表します
{N、M}のような多くのマッチング(貪欲マッチング)、m回までの一致、正規表現と一致することを少なくともn回を示し
{Nは、}のような多くのマッチング(貪欲マッチング)少なくともn回一致します
?一致0または1(一致貪欲)は(少なくとも試合の場合)数量詞解除貪欲ヒットで使用され
*ゼロまたは任意の回数にマッチします
+ 1回以上一致し
グループ:
()全体制約の\ D(\ \ D +)?整数または小数一致
(?P <名前>)パケットに名を表します
(?P =名)このパケットを使用して、正確に同一のパケットを照合コンテンツとコンテンツを表し、パケット番号が使用されてもよいです
記号をエスケープ:
Pythonはエスケープ:\、R
図2に示すように、モジュールの再パイソン
マッチ:
findAll:すべての結果のリストを返します。
検索:結果は、通常の結果オブジェクトで、何もなしが見つかりませんでした
試合:のみスクラッチ一致
カッティング:
スプリット
交換してください:
サブ:文字列が操作に対応した交換してください
SUBN:代替のタプル、そして置換文字列、整数倍を返します。
高度:
コンパイル:(1で複数回使用し、同じ正規表現が効率が向上します)時間節約プリコンパイル
finditer:発電原理とデータのメモリを節約するスペース効率が一般的に使用されたときに大量の、
特別な使い方:
使用している場合のfindAllは使用をグループ化し、検索結果の内容を表示するために優先順位を与える:?グループ解除の優先順位を
リストに保存されているコンテンツを切り取ります)(使用して分割
検索:パケットがある場合、グループは()と一致するグループで取得することができます
3、インタビュー対象:
ビッグデータ、統計、機械学習、sklearn、高性能、高同時実行。 </ P> </ div> "" " インポート再 オープンと同様に( '正規の.txt'、R '') 、F。 = re.compileのRET( "<P> |の<div> | </ DIV> | </ P> | <BR> | \ S") コンテンツ= re.sub(RET、 ''、達し、f.read()) 印刷(コンテンツ) "" " 以下のURLを抽出ドメイン:" "" TE =「http://www.interoem.com/messageinfo.asp?id=35、http://3995503.com/class/class09/ news_show.asp?上記のIDを述べた= 14、 '\ ' http://lib.wzmc.edu.cn/news/onews.asp?id=769、http://www.zy-ls.com/alfx.asp?newsid上記ID = 6&377 =、 '\言及 ' http://www.fincm.com/newslist.asp?id=415 ' RET = re.compile( "HTTP :? //.* /") RES = re.finditer(RETを、TE) のためのI RES中: 印刷(i.group()) "" " 単語列として抽出されます。" "" test_str = "Hello Worldのハハ」 プリント(re.split(」」、test_str))