#ページ構造
#ソースコード
インポート要求 から BS4 輸入BeautifulSoup 輸入BS4 デフgetHTMLText(URL): 試してみる: ヘッダ = { " のUser-Agent ":" Mozillaの/ 5.0(Windows NTの6.1; Win64の、x64の)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/ 79.0 .3945.88サファリ/ 537.36 " } R = requests.get(URL、タイムアウト= 30、ヘッダ= ヘッダ) r.raise_for_status() #产生异常信息 r.encoding = r.apparent_encoding #修改编码 戻り r.text 位ページ情報へ戻る 除く: リターン 「」 #のエキスHTML情報重要なデータ、およびリストに解凍 DEF fillList(ULIST、HTML): スープ = BeautifulSoup(HTML、「html.parser 」) #すべてのニュースや情報が表にカプセル化されていますこの表はのtbodyタグと呼ばれる #TBODYで、各ニュース情報は、各TRタグでTRにカプセル化されてきた、それはすべての情報が、現在のすべてのニュースが含まれ #各TR情報を、およびTDに囲まれている #1。 、TRすなわち、各ニュース情報横断TBODY 用 TR に soup.find(' TBODY ' ).children: #タグデータ以外の他のタイプをフィルタリング IF でisinstance(TR、bs4.element.Tag): TDS = TR('TD ') #クエリTRにおけるTD ulist.append([TDS [1] .string、TDS [2 ] .string]) DEF がprintlist(ULIST、NUM): 印刷(" {:}。6 ^ \ T {^ } 10 " .format(" タイトル" " 熱" )) のための I における(NUM)範囲: U = ULIST [I] 印刷(" {:} 6 ^ \ T {。} ^ 10 " .format(U [ 0]、U [1 ])) DEF メイン(): #リストにニュース情報 のuInfo = [] #BaiduのニュースURL URL = " https://tophub.today/n/Jb0vmloB1G " #のHTMLに変換するURL HTML = getHTMLText(URL) fillList(のuInfo、HTML) がprintlist(のuInfo、 10) #10ニュース IF __name__ = = ' __main__ ' : メイン()
#データキャプチャを取得