1つの インポート要求 2 インポートBS4 3。 4。 #は、ウェブページのコードを取得 5。 DEF getHtml(URL): 6 トライ: 7 応答= requests.get(URL) 。8 response.raise_for_status() 9。 response.encoding = response.apparent_encoding 10 戻りresponse.textを 11 を除く: 12 リターンは 、「このサイトをクロール禁止」 13の 14の #は、テキストの各ページを取得 15 DEF :章(URL、名前) 16を HTML = gethtml(" http://www.bjkgjlu.com " + URL) 17 スープ= bs4.BeautifulSoup(HTML、' html.parser ' ) 18 のための I における soup.find_all(" DIV "、ATTRS = { " クラス":" chapter_content " }): 19 オープン(名+と" .txtファイル" " WB " )Fとして: 20 f.write(i.text.split(" &LT 」)[0] .encode(" UTF-8 " )) 21 プリント(名+ " 爬取结束、并存入文件" ) 22 23 なら __name__ == " __main__ " : 24 URL = " http://www.bjkgjlu.com/303618kyi/catalog " 25 chapter_name_list = [] 26 chapter_url_list = [] 27 HTML = gethtml(URL) 28 スープ= bs4.BeautifulSoup(HTML、" html.parser " ) 29 30 のために I でsoup.findAll(" DIV "、ATTRS = { " クラス":" COL-XS-120 COL-SM-60 COL-MD-40 COL-LG-30 " }): 31 用の J でi.children: 32 chapter_name_list .append(j.text) 33 chapter_url_listの.append(j.get(" HREF " )) 34 プリント(chapter_name_list) 35 のための J における範囲(LEN(chapter_name_list)): 36 章(chapter_url_list [J]、chapter_name_list [J] )