. 1 Импорт запросов 2 Импорт BS4 . 3 . 4 # приобретает код веб - страницы 5. DEF getHtml (URL): . 6 Попробовать : . 7 ответ = requests.get (URL) . 8 response.raise_for_status () . 9 response.encoding = response.apparent_encoding 10 возврата response.text 11 , кроме информации : 12 возвращения « запретить ползет этот сайт » 13 14 # получить каждую страницу текста 15 DEF глав (URL, название): 16 HTML = gethtml ( " http://www.bjkgjlu.com " + URL) 17 суп = bs4.BeautifulSoup (HTML, ' html.parser ' ) 18 для ввода в soup.find_all ( " ДИВ " , ATTRS = { " класс " : " chapter_content " }): 19 с открытым (именем + " .txt " " термометр " ) , как F: 20 f.write (i.text.split ( " & LT ") [0] .encode (" UTF-8 " )) 21 печати (имя + " 爬取结束,并存入文件" ) 22 23 , если __name__ == " __main__ " : 24 URL = " http://www.bjkgjlu.com/303618kyi/catalog " 25 chapter_name_list = [] 26 chapter_url_list = [] 27 HTML = gethtml (URL) 28 суп = bs4.BeautifulSoup (HTML, " html.parser " ) 29 30 для ввода вsoup.findAll ( " DIV " , ATTRS = { " класс " : " COL-XS-120 Col-см-60 Col-MD-40 Col-LG-30 " }): 31 для J в i.children: 32 chapter_name_list .append (j.text) 33 chapter_url_list .append (j.get ( " HREF " )) 34 печати (chapter_name_list) 35 для J в диапазоне (LEN (chapter_name_list)): 36 глав (chapter_url_list [J], chapter_name_list [J] )