学習のPythonの正規一部_

1、定期的に

  正規表現:通常の文字列の一致は、最初から最後まで一致しています

  文字グループ:[]文字の文字がXianchuyuanxing特殊文字を設定して一致した、以外の文字にマッチし、[^ A]、^非を表し、

  元の文字:

    \ D:数字の\ Dにマッチ:他の数字以外の文字が一致

    \ W:一致する数字、文字、\ Wはアンダースコア:その他の非文字照合番号を、文字、下線

    \ Sは:空間に一致する、\ nは、\ T \ S:非空間マッチング、\ Nの\ tのコンテンツ

    [\ S \ S] [\ D \ D] [\ W \ W]:一致するすべての文字

    。:改行以外のすべての文字にマッチします

    ^:一般的に正規表現の先頭に表示されるものを、で始まります

    $:何最後に示し、一般的に、正規表現の最後に表示されます

    \ B:境界(前と後の文字列)に一致します

    \:特殊文字が一致エスケープ

    | B:マッチングまたはBは、発見した後、唯一の結果を移動しない、(長さに適合されないコンテンツの背面に)長い前面に重複し、一致する二つの規則が存在する場合

  数量詞:

    何も開始文字列の文字を持っていません

    {N}は先行する正規表現の1倍の数と一致を表します

    {N、M}のような多くのマッチング(貪欲マッチング)、m回までの一致、正規表現と一致することを少なくともn回を示し

    {Nは、}のような多くのマッチング(貪欲マッチング)少なくともn回一致します

    ?一致0または1(一致貪欲)は(少なくとも試合の場合)数量詞解除貪欲ヒットで使用され

    *ゼロまたは任意の回数にマッチします

    + 1回以上一致し

  グループ:

    ()全体制約の\ D(\ \ D +)?整数または小数一致

    (?P <名前>)パケットに名を表します

    (?P =名)このパケットを使用して、正確に同一のパケットを照合コンテンツとコンテンツを表し、パケット番号が使用されてもよいです

  記号をエスケープ:

    Pythonはエスケープ:\、R

  

図2に示すように、モジュールの再パイソン

  マッチ:

    findAll:すべての結果のリストを返します。

    検索:結果は、通常の結果オブジェクトで、何もなしが見つかりませんでした

    試合:のみスクラッチ一致

  カッティング:

    スプリット

  交換してください:

    サブ:文字列が操作に対応した交換してください

    SUBN:代替のタプル、そして置換文字列、整数倍を返します。

  高度:

    コンパイル:(1で複数回使用し、同じ正規表現が効率が向上します)時間節約プリコンパイル

    finditer:発電原理とデータのメモリを節約するスペース効率が一般的に使用されたときに大量の、

  特別な使い方:

    使用している場合のfindAllは使用をグループ化し、検索結果の内容を表示するために優先順位を与える:?グループ解除の優先順位を

    リストに保存されているコンテンツを切り取ります)(使用して分割

    検索:パケットがある場合、グループは()と一致するグループで取得することができます

 

3、インタビュー対象:

ビッグデータ、統計、機械学習、sklearn、高性能、高同時実行。
</ P> </ div> 
"" " 
インポート再
オープンと同様に( '正規の.txt'、R '') 、F。

    = re.compileのRET( "<P> |の<div> | </ DIV> | </ P> | <BR> | \ S")
    コンテンツ= re.sub(RET、 ''、達し、f.read())
印刷(コンテンツ)


"" " 
以下のURLを抽出ドメイン:" 

"" 

TE =「http://www.interoem.com/messageinfo.asp?id=35、http://3995503.com/class/class09/ news_show.asp?上記のIDを述べた= 14、 '\ 
     ' http://lib.wzmc.edu.cn/news/onews.asp?id=769、http://www.zy-ls.com/alfx.asp?newsid上記ID = 6&377 =、 '\言及
     ' http://www.fincm.com/newslist.asp?id=415 ' 

RET = re.compile( "HTTP :? //.* /")
RES = re.finditer(RETを、TE)
のためのI RES中:
    印刷(i.group())

"" " 
単語列として抽出されます。" 
"" 

test_str = "Hello Worldのハハ」 
プリント(re.split(」」、test_str))

おすすめ

転載: www.cnblogs.com/Laura-L/p/11268691.html
おすすめ