lxmlのインポートHTML DEF )解析(: 「」「」HTMLファイルの内容は、小さなパス抽出用いて「」 " #の読み取りファイルの内容 F =オープン(『./venv/static_/index.htmlを』、' R&LT '、エンコード= ' UTF-8 ' ) S = 達し、f.read() セレクタ = html.fromstring(S) #1 J解析タイトル H3 = selector.xpath(' / HTML /本体/ H3 /テキスト()' ) を印刷(H3 [0]) #ここにリストを取得するために、私は、リストのget使用 Fを。閉じる() #UL内の内容を解析し 、UL = selector.xpath(' / HTML /ボディ/ UL /李' ) #UL = selector.xpath( '// UL /李')も使用することができる 印刷(LEN(UL)) 用リチウム UL: プリント(li.xpath(' テキスト()' )[0]) #TR内側コンテンツ解析#TR = selector.xpath( '/ HTML /本体/フォーム/テーブル/ TR / TD /テキスト()'を)#の印刷(TR) #分析要素のUL指定された値 UL2 = selector.xpath(' / HTML /ボディ/ UL /李[@クラス= "重要"] /テキスト()' ) 印刷(UL2) #の構文解析は、ULを指定しました要素の属性 selector.xpath = A(' // DIV / A /テキスト()[ID = "コンテナ" @] ' ) を印刷([0]) #HREF属性 ALINKを= selector.xpath(" // divの[@ ID = "コンテナ"のhref @] / A / ' ) を印刷(ALINK [0]) #の解析タグのp のp = selector.xpath(' / HTML /ボディ/ P /テキスト()' ) #P = selector.xpath(' / HTML /ボディ/ P [最後の( )] /テキスト() ')# 最後ゲット 印刷(LEN(P)) を印刷(P [0]) #を使用ブラウジングのXPathビルダー テストselector.xpath =(' / HTML /本体/フォーム/テーブル/ TR [1] / TH /テキスト()')#だけ学ぶことができます/ HTML /ボディ/形式/表/ TBODY / TR [1] / THの 印刷(テスト[0]) IF __name__ == ' __main__ ' : 解析を()