BS4爬取小说内容 - 代码天地

BS4爬取小说内容

其他 2020-02-11 15:29:01 阅读次数: 0

利用Beautiful Soup4和requests库来爬取小说内容：
使用bs4的CSS选择器时要根据对应网页的标签内容而定。

# *-* coding:utf-8 *-*
# 爬取 落霞小说网-<余庆年>
from bs4 import BeautifulSoup
import requests
html = requests.get('https://www.luoxia.com/qing/')
soup = BeautifulSoup(html.text, 'html.parser')
chapters = soup.select("div ul li a")
count = 0
for chapter in chapters:
    print(chapter.string)
    count += 1
    if 5 == count:          # 爬取5章
        break
    novel = requests.get(chapter['href'])               # 获得对应章节的html代码
    newSoup = BeautifulSoup(novel.text, 'html.parser')
    with open('novel.txt', 'a+', encoding='utf-8') as f:
        print(chapter.string + '\n', file=f)
        words = newSoup.select("div#nr1 p")             # 爬取小说文本
        for word in words:
            if word.string != None:         # 如果有内容才写入文件
                print(word.string, file=f)
        print('-------------------------------------\n', file=f)

部分输出：
在这里插入图片描述

ASCE_S

发布了12 篇原创文章 · 获赞 0 · 访问量 292

私信关注

猜你喜欢

转载自blog.csdn.net/ASCE_S/article/details/104045389

BS4爬取小说内容

使用bs4实现将诗词名句网站中三国演义小说章节内容爬取

bs4爬取网站图片

bs4爬取网页基础

使用bs4爬豆瓣小说名

bs4-爬取小说

使用BS4爬取个人博客内容以及整理个人博客

bs4解析器——爬取三国演义目录和内容

用bs4-Beautifulsoup爬取三国演义的小说章节内容

用bs4和urllib 爬取视频

bs4 爬取网页数据(一)

爬虫--爬取网页图片--bs4

bs4爬取漫画并写入TXT文档

python使用bs4爬取boss静态页面

Python使用bs4爬取 cnblogs

bs4解析爬取星巴克数据

bs4库爬取天气预报

利用bs4爬取三国演义所有章节标题以及章节内容

python爬虫三大解析数据方法：bs4 及爬小说网案例

爬虫之爬取图片（运用了bs4和正则查取）

网络爬虫 - 4 bs4的使用方法与爬取案例

python 模拟鼠标点击+bs4一键爬取多个网页新闻（题目、媒体、日期、内容、url）

利用bs4和requests爬取股票历史交易数据

Python3-selenium\phantomjs\bs4爬取斗鱼页面

python利用 request bs4 模块爬取imgur网站图片

python接口自动化测试十八：使用bs4框架爬取图片

爬虫入门之爬取策略 XPath与bs4实现(五)

python2使用bs4爬取腾讯社招

使用requests和bs4模块爬取虎扑爆照区照片

用xpath、bs4、re爬取B站python数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)