Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储

企业开发 2023-04-09 01:24:03 阅读次数: 0

使用Python爬虫技术爬取起点小说网作者及书名，并且以xlsx形式保存

前言

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、了解所需要的工具

Xpath Helper是Python爬虫Chrome网页解析工具，该工具可以帮助用户解决在获取 XPath 路径时无法正常定位等问题

二、使用步骤

1.引入库，导入链接

代码如下（示例）：

import requests
from lxml import etree
import openpyxl

url = 'https://www.qidian.com/rank/recom?style=1'
headers = {
    
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
num1 = requests.get(url, headers = headers)
# print(num1.status_code)
# print(num1.text)

text1 = etree.HTML(num1.text)
names = text1.xpath('//div[@class="book-mid-info"]/h4/a/text()')
names1 = text1.xpath('//p[@class="author"]/a[1]/text()')
names2 = text1.xpath('//p[@class="author"]/a[2]/text()')
names3 = text1.xpath('//p[@class="author"]/span/text()')
# print(names)
# print(names1)
# print(names2)
# print(names3)

使用Xpath Helper工具，分析出爬取的内容的位置

## 2.存储数据

代码如下（示例）：

# 存储
lxm = [['小说名称', '作者', '分类', '状态']]
for i in range(0, len(names)):
    lxm.append([names [i], names1 [i], names2[i], names3[i]])

for iten in lxm:
    print(iten)

# 创建一个excel文件
work = openpyxl.Workbook()

sheet = work.active
# 循环一次向列表添加一次
for iten in lxm:
    sheet.append(iten)

# 保存
work.save('起点文学网推荐票榜信息.xlsx')

该处使用循环向列表添加爬取的内容。

总结

综上所述哈，本章只限于Python期末作业，没有具体的给代码进行分析和讲解，拿着用就行不必感谢

猜你喜欢

转载自blog.csdn.net/G6_12/article/details/118036043

Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储

使用scrapy爬虫,爬取起点小说网的案例

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

【Python从零到壹】使用XPath解析数据爬取起点小说网数据

Python爬虫系列之小说网爬取

网络爬虫-爬取顶点小说网指定小说

python爬虫，爬起点小说网小说

爬虫练习——爬取纵横小说网

Python的scrapy之爬取6毛小说网

【Python3爬虫-爬小说】爬取某小说网小说1/2--利用网址顺序抓

python爬虫爬取笔趣网小说网站过程图解

Python爬虫实例(一)——爬取某点小说网《庆余年》

python：免费看无广告小说之爬取全本免费小说网的小说

爬虫爬取小说网站

spider爬虫练习，爬取顶点小说网，小说内容。

python爬取起点小说

用python爬虫简单爬取笔趣网：类“起点网”的小说

python爬虫，简单的爬取小说网站的阅读排名

Python3爬取免费小说网小说

Python爬取小说网站

python 爬取小说网站实战

【Python3爬虫-爬小说】爬取某小说网小说2/2--利用下一页抓

运用scrapy爬虫,爬取17k小说网的案例-方法二

运用scrapy爬虫,爬取17k小说网的案例

python3爬虫-使用requests爬取起点小说

Python3中BeautifulSoup爬取笔趣阁小说网

Python爬取起点小说并写入文档

scrapy爬虫-爬取wattpad外网小说网站

爬虫(一) java爬取起点中文网小说

爬虫练习-爬取起点中文网小说信息

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)