一度簡単なPythonの爬虫類???

インポート要求
lxmlのインポートetreeから

ヘッダー= {
    "ユーザーエージェント": "のMozilla / 5.0(Windows NTの10.0; Win64の、x64の、RV:71.0)のGecko / 20100101 Firefoxの/ 71.0"、
    "リファラー": "https://www.mzitu.com/"、
}
応答= requests.get( "https://www.mzitu.com/"、ヘッダ=ヘッダ)#GETページのソース
エントリーページのソースかどうかを確認するために#を印刷(response.text)

HTML = etree.HTML(response.text)
#Response.text文字列型
#Etree.HTML()はHTMLドキュメントオブジェクトの文字列形式を解析するために使用することができ、それは_Elementオブジェクトに文字列を渡します。
#のgetParent()、削除()、XPathの()メソッドなどを使用することができるオブジェクトとして_Element。

src_list = html.xpath( '// IMG [@クラス= "怠惰"] / @データ-オリジナル')    
alt_list = html.xpath( '// IMG [クラス@ = "怠惰"] / @ ALT')
#xpathは、リストを返します

ジップでSRC、ALT(src_list、alt_list)のために:
    応答= requests.get(SRC、ヘッダー=ヘッダ)
    ファイル名= "IMG \\" + ALT + ".JPG"
    印刷(「保存画像:」+ファイル名)
    Pとして(ファイル名、 "WB")のオープンと:
    #バイナリは、バイナリコンテンツへの応答を示す書かれました
    #text戻りは、典型的には、ページヘッダに符号化された形式で定義されたタイプのデータを、UNICODE。コンテンツ戻り、バイナリ型のデータをバイト。
        p.write(response.content)

   さあさあさあ!

おすすめ

転載: www.cnblogs.com/xikl/p/12031556.html