使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存
前言
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
一、了解所需要的工具
Xpath Helper是Python爬虫Chrome网页解析工具,该工具可以帮助用户解决在获取 XPath 路径时无法正常定位等问题
二、使用步骤
1.引入库,导入链接
代码如下(示例):
import requests
from lxml import etree
import openpyxl
url = 'https://www.qidian.com/rank/recom?style=1'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36'}
num1 = requests.get(url, headers = headers)
# print(num1.status_code)
# print(num1.text)
text1 = etree.HTML(num1.text)
names = text1.xpath('//div[@class="book-mid-info"]/h4/a/text()')
names1 = text1.xpath('//p[@class="author"]/a[1]/text()')
names2 = text1.xpath('//p[@class="author"]/a[2]/text()')
names3 = text1.xpath('//p[@class="author"]/span/text()')
# print(names)
# print(names1)
# print(names2)
# print(names3)
使用Xpath Helper工具,分析出爬取的内容的位置
## 2.存储数据
代码如下(示例):
# 存储
lxm = [['小说名称', '作者', '分类', '状态']]
for i in range(0, len(names)):
lxm.append([names [i], names1 [i], names2[i], names3[i]])
for iten in lxm:
print(iten)
# 创建一个excel文件
work = openpyxl.Workbook()
sheet = work.active
# 循环一次向列表添加一次
for iten in lxm:
sheet.append(iten)
# 保存
work.save('起点文学网推荐票榜信息.xlsx')
该处使用循环向列表添加爬取的内容。
总结
综上所述哈,本章只限于Python期末作业,没有具体的给代码进行分析和讲解,拿着用就行不必感谢