Python爬虫期末作业 | 爬取起点小说网作者和书名,并以Excel形式存储

使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存


前言

随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。


一、了解所需要的工具

Xpath Helper是Python爬虫Chrome网页解析工具,该工具可以帮助用户解决在获取 XPath 路径时无法正常定位等问题

二、使用步骤

1.引入库,导入链接

代码如下(示例):

import requests
from lxml import etree
import openpyxl

url = 'https://www.qidian.com/rank/recom?style=1'
headers = {
    
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
num1 = requests.get(url, headers = headers)
# print(num1.status_code)
# print(num1.text)

text1 = etree.HTML(num1.text)
names = text1.xpath('//div[@class="book-mid-info"]/h4/a/text()')
names1 = text1.xpath('//p[@class="author"]/a[1]/text()')
names2 = text1.xpath('//p[@class="author"]/a[2]/text()')
names3 = text1.xpath('//p[@class="author"]/span/text()')
# print(names)
# print(names1)
# print(names2)
# print(names3)


使用Xpath Helper工具,分析出爬取的内容的位置


## 2.存储数据

代码如下(示例):

# 存储
lxm = [['小说名称', '作者', '分类', '状态']]
for i in range(0, len(names)):
    lxm.append([names [i], names1 [i], names2[i], names3[i]])

for iten in lxm:
    print(iten)

# 创建一个excel文件
work = openpyxl.Workbook()

sheet = work.active
# 循环一次向列表添加一次
for iten in lxm:
    sheet.append(iten)

# 保存
work.save('起点文学网推荐票榜信息.xlsx')

该处使用循环向列表添加爬取的内容。


总结

综上所述哈,本章只限于Python期末作业,没有具体的给代码进行分析和讲解,拿着用就行不必感谢

猜你喜欢

转载自blog.csdn.net/G6_12/article/details/118036043