XPathを使用してのpythonの簡単なページ要素を探します

lxmlのインポートHTML 

DEF )解析(:
     「」「」HTMLファイルの内容は、小さなパス抽出用いて「」 " 
    #の読み取りファイルの内容 
    F =オープン(./venv/static_/index.htmlを' R&LT '、エンコード= ' UTF-8 ' 
    S = 達し、f.read()

    セレクタ = html.fromstring(S)
     #1 J解析タイトル 
    H3 = selector.xpath(' / HTML /本体/ H3 /テキスト()' を印刷(H3 [0]) ここにリストを取得するために、私は、リストのget使用
    Fを。閉じる()

    UL内の内容を解析し 
    、UL = selector.xpath(' / HTML /ボディ/ UL /李' UL = selector.xpath( '// UL /李')も使用することができる
    印刷(LEN(UL))
     リチウム   UL:
         プリント(li.xpath(' テキスト()' )[0]) TR内側コンテンツ解析TR = selector.xpath( '/ HTML /本体/フォーム/テーブル/ TR / TD /テキスト()'を)#の印刷(TR) 分析要素のUL指定された値 
    UL2 = selector.xpath(' / HTML /ボディ/ UL /李[@クラス= "重要"] /テキスト()' 印刷(UL2) 構文解析は、ULを指定しました要素の属性

    
    
    

    

    
    selector.xpath = A(' // DIV / A /テキスト()[ID = "コンテナ" @] ' を印刷([0]) 

    HREF属性 
    ALINKを= selector.xpath(" // divの[@ ID = "コンテナ"のhref @] / A / ' を印刷(ALINK [0]) 

    解析タグのp 
    のp = selector.xpath(' / HTML /ボディ/ P /テキスト()' P = selector.xpath(' / HTML /ボディ/ P [最後の( )] /テキスト() ')# 最後ゲット
    印刷(LEN(P))
     を印刷(P [0]) 

    使用ブラウジングのXPathビルダー 
    テストselector.xpath =(' / HTML /本体/フォーム/テーブル/ TR [1] / TH /テキスト()'だけ学ぶことができます/ HTML /ボディ/形式/表/ TBODY / TR [1] / THの
    印刷(テスト[0])


IF  __name__ == ' __main__ ' 
    解析を()

 

おすすめ

転載: www.cnblogs.com/zsjlovewm/p/11106458.html