BS4三国志のロマンスの実際の戦闘データのクローリング


#要件:三国志の小説の章タイトルと章コンテンツをクロールするhttp://www.shicimingju.com/book/sanguoyanyi.html bs4 import BeautifulSoupからの
インポートリクエストif __name__ == "
__main__
":
#ホームページデータをクロールするTake
headers = {
'User-Agent': 'Mozilla / 5.0(Windows NT 6.3; WOW64)AppleWebKit / 537.36(KHTML、like Gecko)Chrome / 63.0.3239.132 Safari / 537.36'
}#UA camouflage
url = 'http://
www.shicimingju.com/book/sanguoyanyi.html ' page_text = requests.get(url = url、headers = headers).text

#ホームページで章のタイトルと詳細ページのURLが解析されます
#1 beautifulsoupオブジェクトをインスタンス化するには、次のことを行う必要があります。ページのソースデータがオブジェクトに読み込まれます
soup = BeautifulSoup(page_text、 'lxml')
#章のタイトルと詳細ページのURLが
ホームページで解析されますli_list = soup.select( '。Book-mulu> ul> li')

fp = open( "./ sanguo.txt"、 'w'、encoding = 'utf-8')
in li_li in li_list:
title = li.a.string #todo
detail_url = 'http://www.shicimingju.com '+ li.a [' href ']
#詳細ページへのリクエストを開始し、章のコンテンツを解析します
detail_page_text = requests.get(url = detail_url、headers = headers).text
#詳細ページで関連するコンテンツを解析します
detail_soup = BeautifulSoup( detail_page_text、 'lxml')
div_tag = detail_soup.find( 'div'、class_ = 'chapter_content')
#チャプターコンテンツへの解析
content = div_tag.text()
fp.write(title + ':' + content + '\ n')
印刷(タイトル、「クロール成功」)


おすすめ

転載: www.cnblogs.com/huahuawang/p/12692354.html