python爬取CSDN博客文章并制作成PDF文件 - 代码天地

python爬取CSDN博客文章并制作成PDF文件

编程语言 2021-04-04 23:22:14 阅读次数: 0

前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。+

开发工具

python 3.6.5
pycharm
pdfkit
requests
parsel

相关模块可pip安装

1、获取每篇文章的url地址

如果你不知道怎么写css选择器，不知道怎么写xpath 教你一个不推荐使用的小技巧

选择你想要获取的数据，点击右键 copy 有copy selector就是复制css提取，copy xpath则是xpath的

当然了，还是不建议这样去写，不过可以，这样的方法可以检测你提取数据时，是否有错误

实现代码

import requests
import parsel
response = requests.get(url=url, headers=headers, cookies=cookie)
selector = parsel.Selector(response.text)
urls = selector.css('.article-list h4 a::attr(href)').getall()
for html_url in urls:
    print(html_url)

这样就获取了每一篇文章的url地址

2、获取每一篇文章内容
提取解析方法同上

response = requests.get(url, headers=headers, cookies=cookie)
# text 文本（字符串）
# 遭遇了反扒
# print(response.text)

# 提取文章部分
sel = parsel.Selector(response.text)
# css 选择器
article = sel.css('article').get()
title = sel.css('h1::text').get()
print(title)
print(article)

现在所看到的返回的内容结果，除了标题是咱们需要的那样，但是内容确实网页数据。

咱们只需要把html改成PDF格式

保存数据

import pdfkit
html_str = """
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""
html = html_str.format(article=article)
with open(f'{title}.html', mode='w', encoding='utf-8') as f:
    f.write(html)
    print('{}已下载完成'.format(title))
# exe 文件存放的路径
config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
# 把 html 通过 pdfkit 变成 pdf 文件
pdfkit.from_file(f'{title}.html', f'{title}.pdf', configuration=config)

这里是需要一个wkhtmltopdf.exe 配置文件的

实现效果：

猜你喜欢

转载自blog.51cto.com/15127513/2684929

python爬取CSDN博客文章并制作成PDF文件

Python爬取Python教程并制作成pdf

Python爬取CSDN博客文章，整合成一个学习Python的PDF

python爬取csdn的文章内容

CSDN文章爬取

Python学习之爬虫06-CSDN博客文章爬取

使用Python爬取CSDN历史博客文章列表，并生成目录

爬取CSDN文章代码

Jsoup爬取CSDN博客

python爬取CSDN文章保存至本地

python简单爬虫实例，爬取CSDN文章

python爬取CSDN所有博客标题

Python爬取CSDN，获取个人博客信息

使用python爬取csdn博客访问量

python 使用BeautifulSoup爬取CSDN博客(1)

python爬取个人csdn博客链接和标题

爬取博客文章列表

python 爬取资讯文章并保存html及pdf格式

Python爬取知乎专栏文章并生成PDF

Python 爬取博客园特定博主的文章

python爬取博客圆首页文章链接+标题

使用Python原生爬虫爬取博客文章的简单信息

Python 爬虫：requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息（博主信息、文章标题、文章链接）爬取博主每篇文章的信息（访问、收藏）合法刷访问量？

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

如何爬取CSDN博客中分栏的所有文章的标题和链接

使用phpquerylist爬取csdn文章

爬取并执行本篇CSDN博客的代码

使用selenium爬取csdn博客

requests + pyquery 爬取 csdn 博客信息

requests + pyquery 爬取 csdn 博客信息

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)