正規表現
#抽出されたPythonの キー= " javapythonc ++ PHP " re.findall(' パイソン' 、キー) #のエキス世界こんにちは キー= " <HTML>こんにちは言葉<H1の> </ HTML> <の/ H1> " re.findall (' <H1>(こんにちはワード)</ H1> ' 、キー) #1 エキス170 文字列= ' 私は170 XXの高さが好き' re.findall(' \ D + ' 、String)を #のエキスをのhttp://とHTTPS:// キー= ' http://www.baidu.com https://boob.comと' 再。findAll( " httpsの?' キー) 、または re.findall(' HTTPS {0,1} 'KEY) #の抽出HIT。 キー= ' [email protected] ' re.findall(' H. *?\。'、キー)#貪欲:多くのデータとして抽出陽性発現 #のマッチングおよびASAのSaaS キー= ' のSaaSとSASとsaaas ' re.findall(' SA {1,2} S ' 、KEY) #は、Iと一致しましたラインの開始 文字列= 「」「 あなたと恋に落ちる 、私は非常にあなたを愛し 、私は彼女が愛し 、私は彼女を愛しています 「」」 re.findall(' ^ I. * '、文字列、re.M)#1 re.S(単一ラインマッチング)re.M(マルチラインマッチング) #は、すべての行と一致する 文字列を= '' ' <DIV> Jingyesiの ウィンドウ月光 疑わ接地霜 最初の月のための ホームのダウンシンクタンク '' ' re.findall(' の<div>。* </ div> "、文字列、re.S)
例:通常の画像データを用いて解析およびダウンロードの百科事典をembarrassments
インポート要求 インポート再 インポートOS ヘッダー = { #1 カスタマイズ要求のUser-Agentパラメータヘッダは、もちろん、ヘッダの他のパラメータのカスタマイズ要求である ' ユーザエージェント':' (; Win64の、x64-のWindows NT 6.1)のAppleWebKitのMozilla / 5.0 /537.36(KHTML、ヤモリ等)クローム/ 66.0.3359.181サファリ/ 537.36 ' } URL = ' https://www.qiushibaike.com/imgrank/ ' requests.get(URL = URL、ヘッダー= ヘッダ) page_text = 応答.text #のデータ解析' '' 画像HTML の<divクラス= "サム"> HREF = "/記事/ 121733601"ターゲット= "_空白"> < <IMG SRC = "// pic.qiushibaike.com/system/pictures/12173/121733601/medium/HDWWXFFANYVPKZGN.jpg" ALT = "#121 733 601 embarrassments" =クラス「IllustrationRF」幅=「100%」高さ=「自動」> </a>の </ div>を 「」「 #現在のページに格納されたリストは、すべての画像リンクのソースである img_list = re.findall(」<クラス= DIV "サム">。*?<IMG SRC = "(。*?)。" *?>。*?</ div> " 、page_text、re.S) #画像データ格納フォルダを作成する 場合 ない os.path.exists(' ./imgs ' ): os.mkdir("IMGS " ) のための URL でimg_list: #完全なURLの中に組み立てられた画像ステッチのURL、 img_url = 「HTTPS:」 + のURL #永続ストレージ:データは、写真画像のURLに格納されていない img_data = requests.get(URL = img_url、ヘッダー= ヘッダ).content img_name = url.split(' / ') - 1 ] img_path = ' IMGS / ' + img_name オープン(img_pathと' WB ' FP AS): fp.write(img_data) プリント(img_name +は「正常書き込ま")
爬虫類の過程における二つのXPathの使用
ダウンロード:INSTAL lxmlのピップ
ガイドパッケージ:lxmlのインポートetreeから
データを開発するetreeオブジェクトを作成するために解決 -ローカル:etree.parse(「ローカルファイルパス」) etree.xpath(「XPath式」) -ネットワーク:etree.HTML(「データネットワークへのページ要求」) etree.xpath (「XPath式」)