Python3小工具之小说爬虫 - 代码天地

Python3小工具之小说爬虫

其他 2018-05-11 09:27:45 阅读次数: 1

使用Python3编写小说爬虫爬取笔趣阁网站的小说。

使用方法：将源代码保存为book.py文件，自行前往笔趣阁网站查询书号，在拥有python3环境的命令行或者IDE里执行以下命令

# 例如下载笔趣阁书号为 1 的小说龙符
# 运行
python3 book.py 1
# 或者
./python3 book.py 1

Python3源代码如下

#!/usr/bin/python3
# -*- coding: utf-8 -*-
import sys
import requests
from bs4 import BeautifulSoup


def crawl_book_use_bs4(page):
    url = 'http://www.biqiuge.com/book/' + page
    res = requests.get(url)
    res.encoding = 'gbk'
    soup = BeautifulSoup(res.text, 'html.parser')
    return soup


def crawl_book_info(page):
    soup = crawl_book_use_bs4(page)
    book_list = soup.find_all('div', id='list')
    for child in book_list:
        for child2 in child.find_all('a'):
            list_chapters.append(child2.get_text())
            list_url.append(child2['href'])
    book_info = soup.find_all('div', id='info')
    for child in book_info:
        name = child.find('h1').get_text()
        author = child.find('a').get_text()
        return name, author


def crawl_book_text(page):
    soup = crawl_book_use_bs4(page)
    book_text = soup.find_all('div', id='content')
    for child in book_text:
        return child.get_text()


list_url = []
list_chapters = []
info = crawl_book_info(str(sys.argv[1]))
book = open((str(info[0]) + '.txt'), 'a', encoding='utf-8')
book.write(str(info[0]) + '\n' + info[1] + '\n\n')
for i in range(0, len(list_url)):
    book.write('\n' + str(list_chapters[i]) + '\n')
    book.write(crawl_book_text(str(sys.argv[1]) + '/' + str(list_url[i])))
book.close()

猜你喜欢

转载自blog.csdn.net/chickenstar/article/details/80270117

Python3小工具之小说爬虫

最火Python3 玩转实用小工具

Python3 小工具-MAC泛洪

Python3 小工具-TCP半连接扫描

Python3 小工具-UDP扫描

Python3 小工具-ICMP扫描

Python3 小工具-僵尸扫描

python3写的exe小工具的准备事项

Python3小工具之文件批量重命名

Python3爬虫小说

python3实用小工具--商品库存查看工具（附源码）

python3实用小工具--网站筛选工具（附源码）

python学习之小工具汇总

python小工具

利用Python3开发一款小工具(引言)

利用Python3开发一款小工具（环境配置）

利用Python3开发一款小工具（界面的设计）

利用Python3开发一款小工具（界面背后的代码）

Python3批量修改文件名小工具

python3实用小工具--语言翻译器（附源码）

Python3——网络小说爬虫

Python3爬虫小说章节内容

python爬虫小工具--快速获得请求头

python常用小工具

python内置小工具

python 翻译小工具

Python 内置小工具

python3实用小工具--wifi路由器厂商查看器（附源码）

python3+PAM30，刷新小工具

自制python小工具(3)——Gadgets1.1

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)