爬取免费小说 - 代码天地

爬取免费小说

其他 2020-02-13 12:01:04 阅读次数: 0

　　今天小编学些了用xpath爬取小说网，权当练习。

　　xpath是路径语言。

　　小说（免费）网址：http://book.zongheng.com/showchapter/896071.html

　　首先，小编随便点开了一个小说。

　　可以看到，小说每个章节的title，url都在ul这个无序标签里面，只需用xpath遍历即可。

　　首先先打开对应的一个网址，查看对应的小说的内容位置。

　　可以看到，第一章节的内容都在div标签中，且class属性为content。

import requests
from lxml import etree



def get_chapter_name(url):
    html = requests.get(url).text
    page_source = etree.HTML(html)
    chapters_url = page_source.xpath('//ul[@class="chapter-list clearfix"]/li/a/@href')
    chapters_name = page_source.xpath('//ul[@class="chapter-list clearfix"]/li/a/text()')
    for chapter_url, chapter_name in zip(chapters_url, chapters_name):
        get_text(chapter_url, chapter_name)
    print('完毕！！！')



def get_text(chapter_url, chapter_name):
    # 获取网页内容
    html = requests.get(chapter_url).text
    page = etree.HTML(html)
    text_tag = page.xpath('//div[@class="content"]//p//text()')
    text = '\n'.join(text_tag)
    path = '破天传人/{}.txt'.format(chapter_name)
    with open(path, 'w', encoding='utf-8') as f:
        f.write(text)
        print(path + '   写入完毕！！！')


if __name__ == '__main__':
    url = 'http://book.zongheng.com/showchapter/896071.html'
    get_chapter_name(url)

猜你喜欢

转载自www.cnblogs.com/a-runner/p/12302914.html

爬取免费小说

python：免费看无广告小说之爬取全本免费小说网的小说

Python3爬取免费小说网小说

爬起点免费小说

关于免费小说的隐私政策

java实现自动下载免费小说

免费小说阅读小程序

青龙面板免费小说新

想要看免费小说吗？想爬取小说？那就请你和我一起这样做吧

【实战演练】Python爬虫，使用2.3 Scrapy 框架爬免费小说

AutoJS4.1.0实战教程 ---七猫免费小说

AutoJS4.1.0实战教程 ---番茄免费小说

基于autojs7的番茄免费小说辅助

小说网站开发，在线各种免费小说，小说阅读网

如何利用免费小说引流？小说平台怎么免费推广引流?

Autojs实战教程---番茄免费小说Apk文件和源码

安卓逆向实战某猫免费小说验证码请求协议分析&脱机执行

Android免费小说阅读器—程序员自己的阅读器，没广告，所有小说可搜索，专注阅读体验

我的绝色总裁未婚妻在线听书_有声小说_免费小说阅读_主角介绍_花幽山月

Python爬取全书网小说，免费看小说

java初试爬虫jsoup爬取纵横小说免费模块

小说爬取

python 爬取小说

Python爬取小说

爬取小说

爬取小说 spider

scrapy 爬取小说

爬取金瓶梅小说

简单爬取小说

小说文本爬取

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)