温熱10ヘッダ情報とデータの前にインターネット(例えば、ツイッターは、ほとんど知られている、マイクロ文字、百度、等)を取得します

#ページ構造

 

 #ソースコード

インポート要求
 から BS4 輸入BeautifulSoup
 輸入BS4
 デフgetHTMLText(URL):
     試してみる
        ヘッダ = { " のUser-Agent "" Mozillaの/ 5.0(Windows NTの6.1; Win64の、x64の)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/ 79.0 .3945.88サファリ/ 537.36 " } 
        R = requests.get(URL、タイムアウト= 30、ヘッダ= ヘッダ)
        r.raise_for_status()              产生异常信息 
        r.encoding = r.apparent_encoding   修改编码
        戻り r.text    ページ情報へ戻る
    除くリターン 「」
    
#のエキスHTML情報重要なデータ、およびリストに解凍
DEF fillList(ULIST、HTML):
    スープ = BeautifulSoup(HTML、html.parser すべてのニュースや情報が表にカプセル化されていますこの表はのtbodyタグと呼ばれる
    TBODYで、各ニュース情報は、各TRタグでTRにカプセル化されてきた、それはすべての情報が、現在のすべてのニュースが含まれ
    各TR情報を、およびTDに囲まれている
    1。 、TRすなわち、各ニュース情報横断TBODY 
     TR  soup.find(' TBODY ' ).children:
        タグデータ以外の他のタイプをフィルタリング
        IF でisinstance(TR、bs4.element.Tag):
            TDS = TR('TD 'クエリTRにおけるTD 
            ulist.append([TDS [1] .string、TDS [2 ] .string])
            
DEF がprintlist(ULIST、NUM):
     印刷" {:}。6 ^ \ T {^ } 10 " .format(" タイトル" " " ))
     のための I における(NUM)範囲:
        U = ULIST [I]
         印刷" {:} 6 ^ \ T {。} ^ 10 " .format(U [ 0]、U [1 ]))
        
DEF メイン():
    リストにニュース情報 
    のuInfo = []       
    BaiduのニュースURL 
    URL = " https://tophub.today/n/Jb0vmloB1G " 
    #のHTMLに変換するURL 
    HTML = getHTMLText(URL)    
    fillList(のuInfo、HTML)
    がprintlist(のuInfo、 10)    10ニュース
    
IF  __name__ = = ' __main__ ' 
    メイン()

#データキャプチャを取得

 

 

 

 

 

おすすめ

転載: www.cnblogs.com/hhb123/p/12530688.html