検索でクライミングBaiduの

1.ウェブhttp://top.baidu.com/buzz?b=1&fr=topindex

2.ソースコードを右見つけます

 3.工具データをクロール

インポート要求
BS4輸入BeautifulSoupのから
のPdなどの輸入パンダ
タイトル= []
HOTS = []
のurl = 'のhttp:?//top.baidu.com/buzz B = 1&FR = topindex' #百度今日热搜
ヘッダ= { 'USER-エージェント':'のMozilla / 5.0(のWindows NT 6.3、Win64の、のx64)のAppleWebKit / 537.36(ヤモリ様KHTML)クローム/ 69.0.3497.100サファリ/ 537.36' }#伪装爬虫
R = requests.get(URL)#请求网站
R .raise_for_status()
r.encoding = r.apparent_encoding
HTML = r.text
テーブル= BeautifulSoup(HTML、 "html.parser")。( "表")を見つける
スープ= BeautifulSoup(HTML、 'lxmlの')#使用工具を
メートルsoup.find_allで(クラス_ = "リストのタイトル"):
(。m.get_text()ストリップ())titles.append
:soup.find_all中のn(クラス_ = "アイコン-上昇")のための
hots.append(N。GET_TEXT()。ストリップ())
=最終[タイトル、HOTS]
印刷(最終)
S = pd.DataFrame(決勝、インデックス= [ "タイトル"、 "検索インデックス"])
印刷(ST)

 

4.データがクロールされています

 

おすすめ

転載: www.cnblogs.com/xx1129/p/12543514.html