Роботы практика сетевых романов

. 1  Импорт запросов
 2  Импорт BS4
 . 3  
. 4  # приобретает код веб - страницы 
5.  DEF getHtml (URL):
 . 6      Попробовать :
 . 7          ответ = requests.get (URL)
 . 8          response.raise_for_status ()
 . 9          response.encoding = response.apparent_encoding
 10          возврата response.text
 11      , кроме информации :
 12          возвращения  « запретить ползет этот сайт » 
13  
14  # получить каждую страницу текста 
15  DEF глав (URL, название):
 16     HTML = gethtml ( " http://www.bjkgjlu.com " + URL)
 17      суп = bs4.BeautifulSoup (HTML, ' html.parser ' )
 18      для ввода в soup.find_all ( " ДИВ " , ATTRS = { " класс " : " chapter_content " }):
 19          с открытым (именем + " .txt " " термометр " ) , как F:
 20              f.write (i.text.split ( " & LT ") [0] .encode (" UTF-8 " ))
 21              печати (имя + " 爬取结束,并存入文件" )
 22  
23 ,  если  __name__ == " __main__ " :
 24      URL = " http://www.bjkgjlu.com/303618kyi/catalog " 
25      chapter_name_list = []
 26      chapter_url_list = []
 27      HTML = gethtml (URL)
 28      суп = bs4.BeautifulSoup (HTML, " html.parser " )
 29  
30      для ввода вsoup.findAll ( " DIV " , ATTRS = { " класс " : " COL-XS-120 Col-см-60 Col-MD-40 Col-LG-30 " }):
 31          для J в i.children:
 32              chapter_name_list .append (j.text)
 33              chapter_url_list .append (j.get ( " HREF " ))
 34      печати (chapter_name_list)
 35      для J в диапазоне (LEN (chapter_name_list)):
 36          глав (chapter_url_list [J], chapter_name_list [J] )

 

рекомендация

отwww.cnblogs.com/lsyb-python/p/11774319.html
рекомендация