python爬虫学习（十一）bs4解析爬取三国演义 - 代码天地

python爬虫学习（十一）bs4解析爬取三国演义

其他 2020-03-26 15:03:02 阅读次数: 0

# -*- coding: utf-8 -*-
import lxml
import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
}
    #爬取首页信息
    url='http://www.shicimingju.com/book/sanguoyanyi.html'
    page_text=requests.get(url=url,headers=headers).text

    #在首页中解析出章节标题和详情页的url
    #1、实例化BeautifulSoup对象
    soup=BeautifulSoup(page_text,'lxml')
    #2、解析章节标题和url
    li_list = soup.select('.book-mulu > ul > li')
    #文本文件相关
    fp = open('./三国演义.txt','w',encoding='utf-8')
    for li in li_list:
        title=li.a.string
        detail_url='http://www.shicimingju.com'+li.a['href']
        #对详情页进行请求
        detail_page_text=requests.get(url=detail_url,headers=headers).text
        #解析出详情页中的相关的章节内容
        detail_soup=BeautifulSoup(detail_page_text,'lxml')
        div_tag=detail_soup.find('div',class_='chapter_content')
        #解析出的章节内容
        content=div_tag.text
        fp.write(title+':'+'\n'+content+'\n')
        print(title,"获取成功")
    print("三国演义爬取完成")

发布了23 篇原创文章 · 获赞 0 · 访问量 670

私信关注

猜你喜欢

转载自blog.csdn.net/haimian_baba/article/details/103754902

python爬虫学习（十一）bs4解析爬取三国演义

bs4解析器——爬取三国演义目录和内容

bs4实战之三国演义数据爬取

利用bs4爬取三国演义所有章节标题以及章节内容

使用bs4实现将诗词名句网站中三国演义小说章节内容爬取

用bs4-Beautifulsoup爬取三国演义的小说章节内容

爬取三国演义全本内容，保存到TXT文件夹下（requests+bs4）

爬取诗词名句小说-三国演义

Python爬取《三国演义》并且制作词云

python诗词名句网爬取《三国演义》

Python爬取《三国演义》全部章节，统计出现次数前100的武将并生成词云。

三国演义人物词频统计-4

【Python】三国演义词频统计

python 2.7 音频《三国演义》下载

python三国演义人物出场统计

Python XPath抓取小说《三国演义》

Python XPath抓取小说《三国演义》《二》

python 绘制三国演义人物关系图

python WordCloud 绘制三国演义词云

【Python】Tips: 《三国演义》人物出场统计

8-4 《三国演义》人物出场统计（无名单版）python

8-4 《三国演义》人物出场统计（名单版）python

python 学习三国演义词频显示 DAY6

Java实现网络爬虫案例代码4：使用webmagic框架从网上获取《三国演义》全文

python爬虫三大解析数据方法：bs4 及爬小说网案例

python爬虫系列三：html解析大法-bs4

三国演义小学毕业考第六十一题

三国演义小学毕业考第十一题

三国演义小学毕业考第二十一题

三国演义小学毕业考第五十一题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)