10〜爬虫類浮動花作品のネットワークをクロール

インポート要求
lxmlのインポートからetree 
URL = "https://www.piaohua.com/" 
ヘッダ= { 
"のUser-Agent": "Mozillaの/ 5.0(Windows NTの10.0; WOW64)のAppleWebKit / 537.36(ヤモリのようにKHTML、)クローム/65.0.3325.181サファリ/ 537.36" 
} 
#1。请求网页
応答= requests.get(URL、ヘッダー=ヘッダ)
含有量= response.content.decode( "UTF-8")
#2。建立XPathの
HTML = etree.HTML (コンテンツ)
#3。使用するXPath语法筛选
UL = html.xpath( "// UL [@クラス= 'UL-imgtxt1列']")[0] 
LIS = ul.xpath( "./李")
のための# LISにおけるLi:
    #print(etree.tostring(LI、コード= 'UTF-8')のデコード( 'UTF-8'))#检测リチウム没有问题
ムービー= [] 
:LISにおけるLiのための
    タイトル=李。XPathの( ".// H3 //テキスト()")[0]
    明らか= li.xpath( ".// H3 //テキスト() ")[1] 
    ちらし= li.xpath(" .//のimg / @ SRC")#@相当于取值符号
    映画= { 
        "タイトル" :タイトル、
        "クリア":明確な、
        "ちらし":ちらし
    } 
    movies.append(映画)
プリント(動画)

  

おすすめ

転載: www.cnblogs.com/wcyMiracle/p/12466647.html