爬虫類のデータ分析

正規表現

抽出されたPythonの 
キー= " javapythonc ++ PHP " 
re.findall(' パイソン' 、キー)

#のエキス世界こんにちは 
キー= " <HTML>こんにちは言葉<H1の> </ HTML> <の/ H1> " 
re.findall (' <H1>(こんにちはワード)</ H1> ' 、キー)

#1 エキス170 
文字列= ' 私は170 XXの高さが好き' 
re.findall(' \ D + ' 、String)を

#のエキスをのhttp://とHTTPS:// 
キー= ' http://www.baidu.com https://boob.comと' 
再。findAll( " httpsの?' キー)
、または
re.findall(' HTTPS {0,1} 'KEY) 

抽出HIT。 
キー= ' [email protected] ' 
re.findall(' H. *?\。'、キー)貪欲:多くのデータとして抽出陽性発現

#のマッチングおよびASAのSaaS 
キー= ' のSaaSとSASとsaaas ' 
re.findall(' SA {1,2} S ' 、KEY) 

は、Iと一致しましたラインの開始 
文字列= 「」「
    あなたと恋に落ちる
    、私は非常にあなたを愛し
    、私は彼女が愛し
    、私は彼女を愛しています
    「」」
re.findall(' ^ I. * '、文字列、re.M)#1 re.S(単一ラインマッチング)re.M(マルチラインマッチング)

#は、すべての行と一致する 
文字列を= '' ' 
    <DIV> Jingyesiの
    ウィンドウ月光
    疑わ接地霜
    最初の月のための
    ホームのダウンシンクタンク
'' ' 
re.findall(' の<div>。* </ div> "、文字列、re.S)

例:通常の画像データを用いて解析およびダウンロードの百科事典をembarrassments

インポート要求
 インポートインポートOS 
ヘッダー = {
     #1 カスタマイズ要求のUser-Agentパラメータヘッダは、もちろん、ヘッダの他のパラメータのカスタマイズ要求である
    ' ユーザエージェント'' (; Win64の、x64-のWindows NT 6.1)のAppleWebKitのMozilla / 5.0 /537.36(KHTML、ヤモリ等)クローム/ 66.0.3359.181サファリ/ 537.36 ' 
} 
URL = ' https://www.qiushibaike.com/imgrank/ ' 
requests.get(URL = URL、ヘッダー= ヘッダ)
page_text = 応答.text #のデータ解析' '' 
画像HTML 
の<divクラス= "サム">



    HREF = "/記事/ 121733601"ターゲット= "_空白"> < 
    <IMG SRC = "// pic.qiushibaike.com/system/pictures/12173/121733601/medium/HDWWXFFANYVPKZGN.jpg" ALT = "#121 733 601 embarrassments" =クラス「IllustrationRF」幅=「100%」高さ=「自動」> 
    </a>の
</ div>を
「」「
現在のページに格納されたリストは、すべての画像リンクのソースである 
img_list = re.findall(<クラス= DIV "サム">。*?<IMG SRC = "(。*?)。" *?>。*?</ div> " 、page_text、re.S)
画像データ格納フォルダを作成する
場合 ない os.path.exists(' ./imgs ' ):
    os.mkdir("IMGS " 

のための URL img_list:
    完全なURLの中に組み立てられた画像ステッチのURL、 
    img_url = HTTPS: + のURL
     永続ストレージ:データは、写真画像のURLに格納されていない 
    img_data = requests.get(URL = img_url、ヘッダー= ヘッダ).content 
    img_name = url.split(' / ') - 1 ] 
    img_path = ' IMGS / ' + img_name 
    オープン(img_pathと' WB ' FP AS):
        fp.write(img_data)
        プリント(img_name +は正常書き込ま"

爬虫類の過程における二つのXPathの使用

ダウンロード:INSTAL lxmlのピップ
ガイドパッケージ:lxmlのインポートetreeから

データを開発するetreeオブジェクトを作成するために解決
     -ローカル:etree.parse(ローカルファイルパス
           etree.xpath(XPath式 -ネットワーク:etree.HTML(データネットワークへのページ要求
           etree.xpath (XPath式

 

おすすめ

転載: www.cnblogs.com/harryblog/p/11325906.html