爬取三国演义全本内容，保存到TXT文件夹下（requests+bs4）

其他 2021-04-05 21:13:30 阅读次数: 0

一、爬取界面分析

爬取网站：https://www.shicimingju.com/book/sanguoyanyi.html

在这里插入图片描述
通过分析，该界面采用静态加载的方式呈现数据，即获取网页源代码可获取相应的数据，在本界面中获取的数据有章节的标题，以及章节内容的链接。

在章节内容界面，同样时采用静态加载数据的方式。

二、程序源代码

import requests
from bs4 import BeautifulSoup

fp = open('./sanguo.txt','w',encoding='utf-8')
headers = {
    
    
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"
    }
main_url = "https://www.shicimingju.com/book/sanguoyanyi.html"
page_text = requests.get(url = main_url,headers = headers)
page_text.encoding = page_text.apparent_encoding
page_text = page_text.text
soup = BeautifulSoup(page_text,'lxml')
a_list = soup.select('.book-mulu > ul > li > a')
for a in a_list:
    title = a.string
    detail_url = 'https://www.shicimingju.com' + a['href']
    page_text_detail = requests.get(detail_url,headers = headers)
    page_text_detail.encoding = page_text_detail.apparent_encoding
    page_text_detail = page_text_detail.text
    soup = BeautifulSoup(page_text_detail,'lxml')
    div_tag = soup.find('div',class_ = 'chapter_content')
    content = div_tag.text
    fp.write(title + ':' + content + '\n')
    print(title,'保存成功!!!')
fp.close()

三、程序运行结果

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/gets_s/article/details/115448095

爬取三国演义全本内容，保存到TXT文件夹下（requests+bs4）

bs4解析器——爬取三国演义目录和内容

用bs4-Beautifulsoup爬取三国演义的小说章节内容

利用bs4爬取三国演义所有章节标题以及章节内容

使用bs4实现将诗词名句网站中三国演义小说章节内容爬取

python爬虫学习（十一）bs4解析爬取三国演义

bs4实战之三国演义数据爬取

爬取诗词名句小说-三国演义

Python爬取《三国演义》并且制作词云

python诗词名句网爬取《三国演义》

Python网络爬虫实战：通过requests+bs4爬取并保存图片

爬取猎聘网职位(requests+bs4)

爬取校花图片保存到本地文件夹下（requests+re）

三国演义人物词频统计-4

Python爬取《三国演义》全部章节，统计出现次数前100的武将并生成词云。

python采用requests+bs4爬取豆瓣top250图书信息

python采用requests+bs4爬取豆瓣top250电影信息

8-4 《三国演义》人物出场统计（无名单版）python

8-4 《三国演义》人物出场统计（名单版）python

Scrapy爬取并保存到TXT文件

三国演义（二十四）

【Python】三国演义词频统计

三国演义生活真理

《萌将三国演义》隐私政策

三国演义人物词频统计-2

三国演义人物词频统计-3

三国演义人物词频统计-1

《三国演义》与“项目管理”——向刘备拜师

python 2.7 音频《三国演义》下载

python三国演义人物出场统计

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)