ネットワーク小説のWebクローラーの練習

1つの インポート要求
 2  インポートBS4
 3。 
4。  、ウェブページのコードを取得
5。 DEF getHtml(URL):
 6      トライ7          応答= requests.get(URL)
 。8          response.raise_for_status()
 9。          response.encoding = response.apparent_encoding
 10          戻りresponse.textを
 11      を除く12          リターンは 、「このサイトをクロール禁止
13の 
14の #は、テキストの各ページを取得
15  DEF :章(URL、名前)
 16を     HTML = gethtml(" http://www.bjkgjlu.com " + URL)
 17      スープ= bs4.BeautifulSoup(HTML、' html.parser ' 18      のための I における soup.find_all(" DIV "、ATTRS = { " クラス"" chapter_content " }):
 19          オープン(名+と" .txtファイル" " WB " )Fとして:
 20              f.write(i.text.split(" &LT )[0] .encode(" UTF-8 " ))
 21              プリント(名+ " 爬取结束、并存入文件" 22  
23  なら __name__ == " __main__ " 24      URL = " http://www.bjkgjlu.com/303618kyi/catalog " 
25      chapter_name_list = []
 26      chapter_url_list = []
 27      HTML = gethtml(URL)
 28      スープ= bs4.BeautifulSoup(HTML、" html.parser " 29  
30      のために I soup.findAll(" DIV "、ATTRS = { " クラス"" COL-XS-120 COL-SM-60 COL-MD-40 COL-LG-30 " }):
 31          用の J i.children:
 32              chapter_name_list .append(j.text)
 33              chapter_url_listの.append(j.get(" HREF " ))
 34      プリント(chapter_name_list)
 35      のための J における範囲(LEN(chapter_name_list)):
 36          章(chapter_url_list [J]、chapter_name_list [J] )

 

おすすめ

転載: www.cnblogs.com/lsyb-python/p/11774319.html