BS4 rastreo de datos de combate real del Romance de los Tres Reinos


# Requisitos: rastree los títulos de los capítulos y el contenido de los capítulos en las novelas de los Tres Reinos http://www.shicimingju.com/book/sanguoyanyi.html
solicitudes
de importación de bs4 import BeautifulSoup
if __name__ == "__main__":
# Rastree los datos de la página de inicio Take
headers = {
'User-Agent': 'Mozilla / 5.0 (Windows NT 6.3; WOW64) AppleWebKit / 537.36 (KHTML, like Gecko) Chrome / 63.0.3239.132 Safari / 537.36'
} # UA camuflaje
url = 'http: //
www.shicimingju.com/book/sanguoyanyi.html ' page_text = request.get (url = url, headers = headers) .text

# El título del capítulo y la url de la página de detalles se analizan en la página de inicio
# 1 Para crear una instancia del objeto beautifulsoup, debe Los datos de origen de la página se cargan en el objeto
soup = BeautifulSoup (page_text, 'lxml')
# El título del capítulo y la url de la página de detalles se
analizan en la página de inicio li_list = soup.select ('. Book-mulu> ul> li')

fp = abierto ("./ sanguo.txt", 'w', codificación = 'utf-8')
para li en li_list:
title = li.a.string #todo
detail_url = 'http://www.shicimingju.com '+ li.a [' href ']
# Inicie una solicitud a la página de detalles y
analice el contenido del capítulo detail_page_text = request.get (url = detail_url, headers = headers) .text
# Analice el contenido relevante en la página de detalles
detail_soup = BeautifulSoup ( detail_page_text, 'lxml')
div_tag = detail_soup.find ('div', class_ = 'chapter_content')
# Análisis del contenido del capítulo
content = div_tag.text ()
fp.write (title + ':' + content + '\ n')
print (título, "éxito del rastreo")


Supongo que te gusta

Origin www.cnblogs.com/huahuawang/p/12692354.html
Recomendado
Clasificación