python诗词名句网爬取《三国演义》 - 代码天地

python诗词名句网爬取《三国演义》

其他 2019-04-06 15:21:02 阅读次数: 0

import requests
import re

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
#爬取章节内容
def textPaqu(url):
    bigUrl = 'http://www.shicimingju.com'
    new_url = bigUrl+url
    response = requests.get(url=new_url, headers=headers)
    content = response.content.decode('utf-8')
    pat_t = re.compile('<h1>(.*?)</h1>')
    pat_content = re.compile('<p>(.*?)</p>')
    title = pat_t.findall(content)
    text = pat_content.findall(content)
    fr = open(r'text\三国演义.txt', 'a+')
    fr.write(title[0]+'\n\n')
    for i in text:
        fr.write(i.strip().replace('&nbsp;',' ')+'\n')
    fr.write('\n\n')
    fr.close()

#爬取简介和章节名
def paqu():
    url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
    response = requests.get(url=url,headers=headers)
    content = response.content.decode('utf-8')
    pat_T = re.compile('<h1>(.*?)</h1>')
    pat_jianjie = re.compile('<p>(.*?)</p>')
    pat_t = re.compile('<li><a href="(/book/sanguoyanyi/.*?)">.*?</a></li>')
    title = pat_T.findall(content)
    jianjie = pat_jianjie.findall(content)
    zhangjie = pat_t.findall(content)
    fr = open(r'text\三国演义.txt','a+')
    fr.write(title[0]+'\n')
    for i in jianjie:
        fr.write(i+'\n')
    fr.write('\n\n')
    fr.close()
    for i in range(len(zhangjie)):
        print('正在爬取第%d章'%(i+1))
        textPaqu(zhangjie[i])
        print('第%d章爬去完成'%(i+1))

paqu()

猜你喜欢

转载自blog.csdn.net/qq_42591058/article/details/88379029

python诗词名句网爬取《三国演义》

爬取诗词名句小说-三国演义

使用bs4实现将诗词名句网站中三国演义小说章节内容爬取

Python爬取《三国演义》并且制作词云

python爬虫学习（十一）bs4解析爬取三国演义

《三国演义》原著诗词汇总大全！

python爬虫爬取诗词名句网

Python爬取《三国演义》全部章节，统计出现次数前100的武将并生成词云。

bs4解析器——爬取三国演义目录和内容

bs4实战之三国演义数据爬取

用bs4-Beautifulsoup爬取三国演义的小说章节内容

【Python】三国演义词频统计

python 2.7 音频《三国演义》下载

python三国演义人物出场统计

Python XPath抓取小说《三国演义》

Python XPath抓取小说《三国演义》《二》

python 绘制三国演义人物关系图

python WordCloud 绘制三国演义词云

【Python】Tips: 《三国演义》人物出场统计

利用bs4爬取三国演义所有章节标题以及章节内容

爬取三国演义全本内容，保存到TXT文件夹下（requests+bs4）

Python-继人物词频统计三国演义之后-三国词云（Wordcloud）

Python XPath抓取小说《三国演义》《三》多线程简单实例

三国演义（二十四）

三国演义生活真理

《萌将三国演义》隐私政策

三国演义人物词频统计-2

三国演义人物词频统计-3

三国演义人物词频统计-1

三国演义人物词频统计-4

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)