分析--lxmlを自動化するためのpythonインターフェース

 

1  から lxmlのインポートetree
 2つの インポートurllib3
 3つの インポート要求
 4  urllib3.disable_warnings()
 5 URL = " https://www.cnblogs.com/mvc/blog/news.aspx?blogApp=xiaoyujuan " 
6  
7 R = requests.get (URLは、=ベリファイ偽)
 8  プリント(r.text)
9  
10 DOM = etree.HTML(r.content.decode(" UTF-8 " ))
 11ブロック= dom.xpathを(" // * [ID @ = 'profile_block'] " 12etree.tostring = T(ブロック[0]、エンコーディング= ' UTF-8 '、pretty_print = TRUE)
 13は プリント(t.decodeは(" UTF-8 " ))
 14  
15 T1 =ブロック[0] .xpath(テキスト()"#は、現在のテキスト要素ノードプレゼント
16  プリント(T1)
 。17 T2 =ブロック[0] .xpath(' A '#のラベル位置を
18である ため、I、J :ZIP(T1、T2)
 19。     印刷" S%S%"%(I、j.text))

 

1  から lxmlのインポートetree
 2 htmldemo = ''」 
3  <! - HTML5のための- > <メタ文字セットが= "UTF-8">
 4  <META HTTP-当量= "Content-Typeの"コンテンツ= "text / htmlの。文字セット= UTF-8" />
 5  <HTML> <HEAD> <TITLE>ヨーヨーketang </ TITLE> </ HEAD> <BODY> <B> <? - ?!ねえ、このコメントで- > <! / B>
 6  <Pクラス= "タイトル"> <B> yoyoketang </ B> </ P> <Pクラス= "ヨーヨー">这里是我的微信公众号:?yoyoketang <BR>
 7  <HREF = "http://www.cnblogs.com/yoyoketang/tag/fiddler/"クラス= "姉妹" ID = "リンク1">シオマネキ教程</a>の<BR>
8  <a href="http://www.cnblogs.com/yoyoketang/tag/python/" class="sister" id="link2">パイソン笔记</a>の<BR>
 9 </a>を<BR> <a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class="sister" id="link3">セレン文書
 10は、 今注目を是非します!</ P>
 11  <Pクラス= "ストーリー"> ... </ P>
 12である '' ' 
13である etree.HTMLzは、HTMLコンテンツ解析された
14デモ= etree.HTML(htmldemo)
 15  #1 、印刷解像度の後にHTMLコンテンツを方法はetree.tosting使用することができる
16  #の中国語のHTMLコンテンツ内のエンコード=「UTF-を8」正常出力パラメータ
。17  出力の標準フォーマットで真pretty_print = 
18である T = etree.tostring(デモ、エンコーディング= UTF-8 、 = pretty_print 真)
 。19  印刷(T.

 

おすすめ

転載: www.cnblogs.com/xiaoyujuan/p/11304355.html