1 から lxmlのインポートetree 2つの インポートurllib3 3つの インポート要求 4 urllib3.disable_warnings() 5 URL = " https://www.cnblogs.com/mvc/blog/news.aspx?blogApp=xiaoyujuan " 6 7 R = requests.get (URLは、=ベリファイ偽) 8 #プリント(r.text) 9 10 DOM = etree.HTML(r.content.decode(" UTF-8 " )) 11ブロック= dom.xpathを(" // * [ID @ = 'profile_block'] " ) 12etree.tostring = T(ブロック[0]、エンコーディング= ' UTF-8 '、pretty_print = TRUE) 13は プリント(t.decodeは(" UTF-8 " )) 14 15 T1 =ブロック[0] .xpath(「テキスト()")#は、現在のテキスト要素ノードプレゼント 16 プリント(T1) 。17 T2 =ブロック[0] .xpath(' A ')#のラベル位置を 18である ため、I、J で:ZIP(T1、T2) 19。 印刷(" S%S%"%(I、j.text))
1 から lxmlのインポートetree 2 htmldemo = ''」 3 <! - HTML5のための- > <メタ文字セットが= "UTF-8"> 4 <META HTTP-当量= "Content-Typeの"コンテンツ= "text / htmlの。文字セット= UTF-8" /> 5 <HTML> <HEAD> <TITLE>ヨーヨーketang </ TITLE> </ HEAD> <BODY> <B> <? - ?!ねえ、このコメントで- > <! / B> 6 <Pクラス= "タイトル"> <B> yoyoketang </ B> </ P> <Pクラス= "ヨーヨー">这里是我的微信公众号:?yoyoketang <BR> 7 <HREF = "http://www.cnblogs.com/yoyoketang/tag/fiddler/"クラス= "姉妹" ID = "リンク1">シオマネキ教程</a>の<BR> 8 <a href="http://www.cnblogs.com/yoyoketang/tag/python/" class="sister" id="link2">パイソン笔记</a>の<BR> 9 </a>を<BR> <a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class="sister" id="link3">セレン文書 10は、 今注目を是非します!</ P> 11 <Pクラス= "ストーリー"> ... </ P> 12である '' ' 13である #etree.HTMLzは、HTMLコンテンツ解析された 14デモ= etree.HTML(htmldemo) 15 #1 、印刷解像度の後にHTMLコンテンツを方法はetree.tosting使用することができる 16 #の中国語のHTMLコンテンツ内のエンコード=「UTF-を8」正常出力パラメータ 。17 #出力の標準フォーマットで真pretty_print = 18である T = etree.tostring(デモ、エンコーディング= 「UTF-8 」、 = pretty_print 真) 。19 印刷(T.