python实现小说阅读器

目录

简介

实现过程

结语


简介

本文使用python语言开发了一个小说阅读器,通过小说书号抓取全部章数的内容,并保存到计算机上;同时也可以通过阅读器读取相应章数的内容;

预览效果:根据填写的小说书号,分两种方式显示抓取的小说内容;

  开发环境:Windows7+python3.7+pycharm2018.2.4(开发工具);

目录结构:

Tips:希望大家实践过程中,不要一次性抓取太多数据,给服务器环境造成太大压力。

扫描二维码关注公众号,回复: 13194392 查看本文章

实现过程

一、阅读器UI设计

1.安装所需的第三方模块PyQt5和pyqt5-tools(文件-设置),直接使用右边“+”安装就可以,如无法安装,可在命令界面使用“pip install XXX”进行安装(注意使用的是pycharm2018版本);

2.配置工具QtDesigner(设计器)和pyUIC(转化为py代码,Arguments设置“$FileName$ -o $FileNameWithoutExtension$.py”);

3.运行工具QtDesigner(图1)后,利用QtDesigner工具箱设计出图2的界面效果(所需要的控件可查看右边区域),保存效果为文件fiction_reader.ui;

4.对文件fiction_reader.ui执行pyUIC(ui转化为py代码),执行完生成文件fiction_reader.py;

二、代码设计

1.添加内置模块(下面代码使用)和主方法(用于运行后弹出阅读器);

# 添加代码
from PyQt5.QtWidgets import QMessageBox, QFileDialog
import os
import sys
import requests
import re
# 主方法(添加代码)
if __name__ == '__main__':
    app = QtWidgets.QApplication(sys.argv)
    MainWindow = QtWidgets.QMainWindow()  # 创建窗体对象
    ui = Ui_MainWindow()  # 创建PyQt设计的窗体对象
    ui.setupUi(MainWindow)  # 调用PyQt窗体的方法对窗体对象进行初始化设置
    MainWindow.show()  # 显示窗体
    sys.exit(app.exec_())  # 程序关闭时退出进程

2.函数setupUi,添加代码(图1)来修改第一个table显示两列(列表显示);添加代码(图2)来修改第二个table显示方式(图表显示),使用setViewMode设置图表显示方式,数字405为table的宽度;

self.tableWidget.setColumnCount(2)  # 修改成两列
self.tableWidget.setRowCount(0)
# 添加代码(第一个tab分成两列)
item = QtWidgets.QTableWidgetItem()
self.tableWidget.setHorizontalHeaderItem(0, item)
item = QtWidgets.QTableWidgetItem()
self.tableWidget.setHorizontalHeaderItem(1, item)
self.tableWidget.setColumnWidth(0, 130)  # 设置第一列宽度
self.tableWidget.horizontalHeader().setStretchLastSection(True)  # 设置自动填充容器
self.tableWidget.setVerticalScrollBarPolicy(QtCore.Qt.ScrollBarAlwaysOn)  # 垂直滚动条
# 添加代码
self.listWidget.setViewMode(QtWidgets.QListView.IconMode) # 图标格式显示
self.listWidget.setIconSize(QtCore.QSize(50, 50))  # 图标大小
self.listWidget.setMaximumWidth(405)  # 最大宽度
self.listWidget.setSpacing(15)  # 间距大小
self.listWidget.setVerticalScrollBarPolicy(QtCore.Qt.ScrollBarAlwaysOn)  # 垂直滚动条

3.修改函数retranslateUi;

注释:self.lineEdit.setText用来设置小说书号的默认值,self.lineEdit_2.setText设置保存路径为当前路径的file下,self.pushButton.clicked.connect为选择按钮绑定事件(点击选择弹出计算机选择窗口),self.pushButton_2.clicked.connect点击确定开始获取数据;

def retranslateUi(self, MainWindow):
    _translate = QtCore.QCoreApplication.translate
    MainWindow.setWindowTitle(_translate("MainWindow", "阅读器"))
    self.groupBox.setTitle(_translate("MainWindow", "抓取设置"))
    self.label.setText(_translate("MainWindow", "请填写小说书号:"))
    # 添加代码(设置默认书号)
    book_number = '5_5871'
    self.lineEdit.setText(_translate("MainWindow", book_number))  # 设置默认书号

    self.label_2.setText(_translate("MainWindow", "请选择保存路径:"))
    # 添加代码(设置默认路径为当前程序路径下的file文件夹下)
    self.lineEdit_2.setText(_translate("MainWindow", os.getcwd() + '\\file'))

    self.label_3.setText(_translate("MainWindow", "(比如5_5871)"))
    self.pushButton.setText(_translate("MainWindow", "选择"))
    self.pushButton_2.setText(_translate("MainWindow", "确定"))
    self.tabWidget.setTabText(self.tabWidget.indexOf(self.tab), _translate("MainWindow", "列表显示"))
    self.tabWidget.setTabText(self.tabWidget.indexOf(self.tab_2), _translate("MainWindow", "图表显示"))
    # 添加代码(设置列表标题)
    item = self.tableWidget.horizontalHeaderItem(0)  # 获取表格的第一列
    item.setText(_translate("MainWindow", "书号"))  # 设置表格第一列的标题
    item = self.tableWidget.horizontalHeaderItem(1)  # 获取表格的第二列
    item.setText(_translate("MainWindow", "名称"))  # 设置表格第二列的标题

    self.pushButton.clicked.connect(self.msg)  # 为选择按钮绑定事件
    self.pushButton_2.clicked.connect(self.getDatas)  # 点击确定获取数据

4.实现选择保存路径功能,定义函数msg;

注释:os.getcwd()用于弹出选择窗口默认到该路径,self.lineEdit_2.setText显示选择的路径;

def msg(self):
    try:
        # dir_path即为选择的文件夹的绝对路径,第二形参为对话框标题,第三个为对话框打开后默认的路径
        self.dir_path = QFileDialog.getExistingDirectory(None, "选择路径", os.getcwd())
        self.lineEdit_2.setText(self.dir_path)  # 显示选择的保存路径
    except Exception as e:
        print(e)

5.分析抓取数据的原理,先获取小说首页章数的网址信息,然后循环这些网址获取相应章数的内容,并保存到本地;

注释:

封装函数urlTotext,根据传入的URL获取网页数据,注意response.encoding要设置抓取网站的编码方式,不然会显示乱码;

封装函数getData,根据获取到的网址分别获取对应网址下章数的内容,并保存到本地:

    1)查看小说首页源码图2,发现章数网址都在<div id="list"> 下,利用re.findall(r'id="list".*?</dl>', html, re.S)[0]获取到html信息,然后使用re.findall(r'<a href="(.*?)">', dl)过滤出网址信息;

    2)查看小说首页源码,可以看出前八章是最新部分,为了过滤掉使用for item in links[8:20],从8开始循环;

    3)serial_number = item[0:-5]获取网址的号码,后面用来排序显示章数;

    4)查看小说章数源码(图3),发现内容都在<div id="content">下,利用re.findall(r'id="content">(.*?)</div>', articleHtml, re.S)[0]获取到内容html信息,获取到的内容包含间隔符和换行符等,需要进行过滤;

函数getDatas用来抓取所有数据,保存到本地后,再显示到阅读器上;

# 抓取所有数据
def getDatas(self):
    try:
        try:
            while True:  # 无限循环(执行这个,才能爬取完显示)
                self.book_number = self.lineEdit.text()  # 记录用户设置的书号
                self.baseurl = 'https://www.booktxt.net/' + self.book_number + '/'  # 设置书本初始地址
                self.getData(self.baseurl, self.lineEdit_2.text())  # 执行主方法
        except Exception:
            pass
        self.getFiles()  # 获取所有文件
        self.bindList()  # 对列表进行绑定
        self.bindTable()  # 对表格进行绑定
        self.listWidget.itemClicked.connect(self.itemClick)  # 绑定列表单击方法
        self.tableWidget.itemClicked.connect(self.tableClick)  # 绑定表格单击方法
    except Exception:
        QMessageBox.warning(None, "警告", "没有数据,请重新设置书号……", QMessageBox.Ok)
        return

# 抓取数据
def getData(self, url, path):
    html = self.urlTotext(url)
    dl = re.findall(r'id="list".*?</dl>', html, re.S)[0]
    links = re.findall(r'<a href ="(.*?)">', dl)
    path = path + "\\" + self.book_number + "\\"  # 设置文章存储路径
    if not os.path.isdir(path):  # 判断路径是否存在
        os.mkdir(path)  # 创建路径
    for item in links[8:20]:  # 遍历文章列表
        # print(item)
        serial_number = item[0:-5]
        print(serial_number)
        articleUrl = self.baseurl + item  # 获取遍历到的具体文章地址
        articleHtml = self.urlTotext(articleUrl)
        # 提取章节内容
        article_content = re.findall(r'id="content">(.*?)</div>', articleHtml, re.S)[0]
        # 过滤掉内容的间隔符、换行符等
        article_content = article_content.replace('<br /><br />', '')
        article_content = article_content.replace('</br>', '')
        article_content = article_content.replace('&nbsp;', '')

        title = re.findall(r'<h1>(.*?)</h1>', articleHtml, re.S)[0]  # 获取文章标题
        fileName = path + serial_number + title + '.txt'  # 设置文章保存路径(包括文章名)
        newFile = open(fileName, "w")  # 打开或者创建文件
        newFile.write("<<" + title + ">>\n\n")  # 向文件中写入标题并换行
        newFile.write(article_content)  # 向文件中写入内容
        newFile.close()  # 关闭文件
    QMessageBox.Information(None, "提示", self.book_number + "的小说保存完成", QMessageBox.Ok)

# 从网页提取数据
def urlTotext(self, url):
    response = requests.get(url)
    # 编码方式
    response.encoding = 'gbk'
    html = response.text
    return html

6.实现获取本地所有文件的功能,定义函数getFiles;

注释:使用sorted进行排序,有利于阅读器可以根据章数顺序阅读;

def getFiles(self):
    self.list = os.listdir(self.lineEdit_2.text() + '\\' + self.lineEdit.text())  # 列出文件夹下所有的目录与文件
    self.list = sorted(self.list) # 排序

7.实现把文件显示到第一个table,并能点击弹出对应章数的txt进行阅读;

注释:第一列显示书号内容self.lineEdit.text(),第二列显示章数标题self.list[i];if 'txt' in item.text()解决点击书号退出阅读器问题;

# 将文件显示在Table中(列表显示)
def bindTable(self):
    for i in range(0, len(self.list)):  # 遍历文件列表
        self.tableWidget.insertRow(i)  # 添加新行
        # 设置第一列的值为书号
        self.tableWidget.setItem(i, 0, QtWidgets.QTableWidgetItem(self.lineEdit.text()))
        # 设置第二列的值为文件名
        self.tableWidget.setItem(i, 1, QtWidgets.QTableWidgetItem(self.list[i]))

# 表格单击方法,用来打开选中的项
def tableClick(self, item):
    if 'txt' in item.text(): # 点击文件名才弹出
        os.startfile(self.lineEdit_2.text() + '\\' + self.lineEdit.text() + '\\' + item.text())

8.实现把文件显示到第二个table,并能点击弹出对应章数的txt进行阅读;

注释:self.list[i])[7:13]为了不显示章数名前面的序号;

# 将文件显示在List列表中(图表显示)
def bindList(self):
    for i in range(0, len(self.list)):  # 遍历文件列表
        self.item = QtWidgets.QListWidgetItem(self.listWidget)  # 创建列表项
        self.item.setIcon(QtGui.QIcon('images/fiction.png'))  # 设置列表项图标
        self.item.setText(str(self.list[i])[7:13] + '...')  # 截取字符串(不显示序号)
        self.item.setToolTip(self.list[i])  # 设置提示文字
        self.item.setFlags(QtCore.Qt.ItemIsSelectable | QtCore.Qt.ItemIsEnabled)  # 设置选中与否

# 列表单击方法,用来打开选中的项
def itemClick(self, item):
    os.startfile(self.lineEdit_2.text() + '\\' + self.lineEdit.text() + '\\' + item.toolTip())

9.最终代码如下图:

# -*- coding: utf-8 -*-

# Form implementation generated from reading ui file 'fiction_reader.ui'
#
# Created by: PyQt5 UI code generator 5.13.0
#
# WARNING! All changes made in this file will be lost!


from PyQt5 import QtCore, QtGui, QtWidgets
# 添加代码
from PyQt5.QtWidgets import QMessageBox, QFileDialog
import os
import sys
import requests
import re

class Ui_MainWindow(object):
    def setupUi(self, MainWindow):
        MainWindow.setObjectName("MainWindow")
        MainWindow.resize(500, 480)
        self.centralwidget = QtWidgets.QWidget(MainWindow)
        self.centralwidget.setObjectName("centralwidget")
        self.groupBox = QtWidgets.QGroupBox(self.centralwidget)
        self.groupBox.setGeometry(QtCore.QRect(39, 20, 421, 131))
        self.groupBox.setObjectName("groupBox")
        self.label = QtWidgets.QLabel(self.groupBox)
        self.label.setGeometry(QtCore.QRect(20, 36, 101, 16))
        self.label.setObjectName("label")
        self.label_2 = QtWidgets.QLabel(self.groupBox)
        self.label_2.setGeometry(QtCore.QRect(20, 86, 101, 16))
        self.label_2.setObjectName("label_2")
        self.label_3 = QtWidgets.QLabel(self.groupBox)
        self.label_3.setGeometry(QtCore.QRect(282, 36, 101, 20))
        self.label_3.setObjectName("label_3")
        self.lineEdit = QtWidgets.QLineEdit(self.groupBox)
        self.lineEdit.setGeometry(QtCore.QRect(120, 31, 161, 28))
        self.lineEdit.setObjectName("lineEdit")
        self.lineEdit_2 = QtWidgets.QLineEdit(self.groupBox)
        self.lineEdit_2.setGeometry(QtCore.QRect(120, 81, 161, 28))
        self.lineEdit_2.setObjectName("lineEdit_2")
        self.pushButton = QtWidgets.QPushButton(self.groupBox)
        self.pushButton.setGeometry(QtCore.QRect(288, 83, 51, 23))
        self.pushButton.setObjectName("pushButton")
        self.pushButton_2 = QtWidgets.QPushButton(self.groupBox)
        self.pushButton_2.setGeometry(QtCore.QRect(350, 83, 51, 23))
        self.pushButton_2.setObjectName("pushButton_2")
        self.tabWidget = QtWidgets.QTabWidget(self.centralwidget)
        self.tabWidget.setGeometry(QtCore.QRect(39, 175, 421, 231))
        self.tabWidget.setObjectName("tabWidget")
        self.tab = QtWidgets.QWidget()
        self.tab.setObjectName("tab")
        self.tableWidget = QtWidgets.QTableWidget(self.tab)
        self.tableWidget.setGeometry(QtCore.QRect(5, 5, 405, 197))
        self.tableWidget.setObjectName("tableWidget")
        self.tableWidget.setColumnCount(2)  # 修改成两列
        self.tableWidget.setRowCount(0)
        # 添加代码(第一个tab分成两列)
        item = QtWidgets.QTableWidgetItem()
        self.tableWidget.setHorizontalHeaderItem(0, item)
        item = QtWidgets.QTableWidgetItem()
        self.tableWidget.setHorizontalHeaderItem(1, item)
        self.tableWidget.setColumnWidth(0, 130)  # 设置第一列宽度
        self.tableWidget.horizontalHeader().setStretchLastSection(True)  # 设置自动填充容器
        self.tableWidget.setVerticalScrollBarPolicy(QtCore.Qt.ScrollBarAlwaysOn)  # 垂直滚动条

        self.tabWidget.addTab(self.tab, "")
        self.tab_2 = QtWidgets.QWidget()
        self.tab_2.setObjectName("tab_2")
        self.listWidget = QtWidgets.QListWidget(self.tab_2)
        self.listWidget.setGeometry(QtCore.QRect(5, 5, 405, 197))
        self.listWidget.setObjectName("listWidget")
        # 添加代码
        self.listWidget.setViewMode(QtWidgets.QListView.IconMode) # 图标格式显示
        self.listWidget.setIconSize(QtCore.QSize(50, 50))  # 图标大小
        self.listWidget.setMaximumWidth(405)  # 最大宽度
        self.listWidget.setSpacing(15)  # 间距大小
        self.listWidget.setVerticalScrollBarPolicy(QtCore.Qt.ScrollBarAlwaysOn)  # 垂直滚动条

        self.tabWidget.addTab(self.tab_2, "")
        MainWindow.setCentralWidget(self.centralwidget)
        self.menubar = QtWidgets.QMenuBar(MainWindow)
        self.menubar.setGeometry(QtCore.QRect(0, 0, 500, 23))
        self.menubar.setObjectName("menubar")
        MainWindow.setMenuBar(self.menubar)
        self.statusbar = QtWidgets.QStatusBar(MainWindow)
        self.statusbar.setObjectName("statusbar")
        MainWindow.setStatusBar(self.statusbar)

        self.retranslateUi(MainWindow)
        self.tabWidget.setCurrentIndex(0)
        QtCore.QMetaObject.connectSlotsByName(MainWindow)

    def retranslateUi(self, MainWindow):
        _translate = QtCore.QCoreApplication.translate
        MainWindow.setWindowTitle(_translate("MainWindow", "阅读器"))
        self.groupBox.setTitle(_translate("MainWindow", "抓取设置"))
        self.label.setText(_translate("MainWindow", "请填写小说书号:"))
        # 添加代码(设置默认书号)
        book_number = '5_5871'
        self.lineEdit.setText(_translate("MainWindow", book_number))  # 设置默认书号

        self.label_2.setText(_translate("MainWindow", "请选择保存路径:"))
        # 添加代码(设置默认路径为当前程序路径下的file文件夹下)
        self.lineEdit_2.setText(_translate("MainWindow", os.getcwd() + '\\file'))

        self.label_3.setText(_translate("MainWindow", "(比如5_5871)"))
        self.pushButton.setText(_translate("MainWindow", "选择"))
        self.pushButton_2.setText(_translate("MainWindow", "确定"))
        self.tabWidget.setTabText(self.tabWidget.indexOf(self.tab), _translate("MainWindow", "列表显示"))
        self.tabWidget.setTabText(self.tabWidget.indexOf(self.tab_2), _translate("MainWindow", "图表显示"))
        # 添加代码(设置列表标题)
        item = self.tableWidget.horizontalHeaderItem(0)  # 获取表格的第一列
        item.setText(_translate("MainWindow", "书号"))  # 设置表格第一列的标题
        item = self.tableWidget.horizontalHeaderItem(1)  # 获取表格的第二列
        item.setText(_translate("MainWindow", "名称"))  # 设置表格第二列的标题

        self.pushButton.clicked.connect(self.msg)  # 为选择按钮绑定事件
        self.pushButton_2.clicked.connect(self.getDatas)  # 点击确定获取数据

    # 添加代码(选择保存路径)
    def msg(self):
        try:
            # dir_path即为选择的文件夹的绝对路径,第二形参为对话框标题,第三个为对话框打开后默认的路径
            self.dir_path = QFileDialog.getExistingDirectory(None, "选择路径", os.getcwd())
            self.lineEdit_2.setText(self.dir_path)  # 显示选择的保存路径
        except Exception as e:
            print(e)

    # 抓取所有数据
    def getDatas(self):
        try:
            try:
                while True:  # 无限循环(执行这个,才能爬取完显示)
                    self.book_number = self.lineEdit.text()  # 记录用户设置的书号
                    self.baseurl = 'https://www.booktxt.net/' + self.book_number + '/'  # 设置书本初始地址
                    self.getData(self.baseurl, self.lineEdit_2.text())  # 执行主方法
            except Exception:
                pass
            self.getFiles()  # 获取所有文件
            self.bindList()  # 对列表进行绑定
            self.bindTable()  # 对表格进行绑定
            self.listWidget.itemClicked.connect(self.itemClick)  # 绑定列表单击方法
            self.tableWidget.itemClicked.connect(self.tableClick)  # 绑定表格单击方法
        except Exception:
            QMessageBox.warning(None, "警告", "没有数据,请重新设置书号……", QMessageBox.Ok)
            return

    # 抓取数据
    def getData(self, url, path):
        html = self.urlTotext(url)
        dl = re.findall(r'id="list".*?</dl>', html, re.S)[0]
        links = re.findall(r'<a href="(.*?)">', dl)
        path = path + "\\" + self.book_number + "\\"  # 设置文章存储路径
        if not os.path.isdir(path):  # 判断路径是否存在
            os.mkdir(path)  # 创建路径
        for item in links[8:20]:  # 遍历文章列表
            # print(item)
            serial_number = item[0:-5]
            print(serial_number)
            articleUrl = self.baseurl + item  # 获取遍历到的具体文章地址
            articleHtml = self.urlTotext(articleUrl)
            # 提取章节内容
            article_content = re.findall(r'id="content">(.*?)</div>', articleHtml, re.S)[0]
            # 过滤掉内容的间隔符、换行符等
            article_content = article_content.replace('<br /><br />', '')
            article_content = article_content.replace('</br>', '')
            article_content = article_content.replace('&nbsp;', '')

            title = re.findall(r'<h1>(.*?)</h1>', articleHtml, re.S)[0]  # 获取文章标题
            fileName = path + serial_number + title + '.txt'  # 设置文章保存路径(包括文章名)
            newFile = open(fileName, "w")  # 打开或者创建文件
            newFile.write("<<" + title + ">>\n\n")  # 向文件中写入标题并换行
            newFile.write(article_content)  # 向文件中写入内容
            newFile.close()  # 关闭文件
        QMessageBox.Information(None, "提示", self.book_number + "的小说保存完成", QMessageBox.Ok)

    # 从网页提取数据
    def urlTotext(self, url):
        response = requests.get(url)
        # 编码方式
        response.encoding = 'gbk'
        html = response.text
        return html

    # 获取所有文件
    def getFiles(self):
        self.list = os.listdir(self.lineEdit_2.text() + '\\' + self.lineEdit.text())  # 列出文件夹下所有的目录与文件
        self.list = sorted(self.list) # 排序
        print(self.list)

    # 将文件显示在Table中(列表显示)
    def bindTable(self):
        for i in range(0, len(self.list)):  # 遍历文件列表
            self.tableWidget.insertRow(i)  # 添加新行
            # 设置第一列的值为书号
            self.tableWidget.setItem(i, 0, QtWidgets.QTableWidgetItem(self.lineEdit.text()))
            # 设置第二列的值为文件名
            self.tableWidget.setItem(i, 1, QtWidgets.QTableWidgetItem(self.list[i]))

    # 表格单击方法,用来打开选中的项
    def tableClick(self, item):
        if 'txt' in item.text(): # 点击文件名才弹出
            os.startfile(self.lineEdit_2.text() + '\\' + self.lineEdit.text() + '\\' + item.text())

    # 将文件显示在List列表中(图表显示)
    def bindList(self):
        for i in range(0, len(self.list)):  # 遍历文件列表
            self.item = QtWidgets.QListWidgetItem(self.listWidget)  # 创建列表项
            self.item.setIcon(QtGui.QIcon('images/fiction.png'))  # 设置列表项图标
            self.item.setText(str(self.list[i])[7:13] + '...')  # 截取字符串(不显示序号)
            self.item.setToolTip(self.list[i])  # 设置提示文字
            self.item.setFlags(QtCore.Qt.ItemIsSelectable | QtCore.Qt.ItemIsEnabled)  # 设置选中与否

    # 列表单击方法,用来打开选中的项
    def itemClick(self, item):
        os.startfile(self.lineEdit_2.text() + '\\' + self.lineEdit.text() + '\\' + item.toolTip())

# 主方法(添加代码)
if __name__ == '__main__':
    app = QtWidgets.QApplication(sys.argv)
    MainWindow = QtWidgets.QMainWindow()  # 创建窗体对象
    ui = Ui_MainWindow()  # 创建PyQt设计的窗体对象
    ui.setupUi(MainWindow)  # 调用PyQt窗体的方法对窗体对象进行初始化设置
    MainWindow.show()  # 显示窗体
    sys.exit(app.exec_())  # 程序关闭时退出进程

结语

本文使用python语言开发了一个小说阅读器,核心就是利用QtDesigner设计抓取设置界面,然后使用requests抓取网站数据,保存到本地后,把章数数据显示到阅读器。

猜你喜欢

转载自blog.csdn.net/king0964/article/details/104276137