初试Python爬虫下载pdf - 代码天地

初试Python爬虫下载pdf

其他 2018-06-02 18:06:56 阅读次数: 0

最近刚学完Boyd的Convex Optimization，真是对Boyd神佩服得五体投地。在他的lecture slides末尾发现原来还有进阶课程Stanford的ee364b，那本convex optimization只包括了ee364a，然而ee364b没有现成的完整slides一次性下载，只好写个爬虫挨个下载保存slides，在ee364b里的内容更加专业深入，估计实际很少用到。然后我把爬虫的代码贴上来，还好他们的网页结构比较简单，代码量不大。下载好的文件里有些是空白的，回网站一查发现确实是他们没有在里面留东西，就这样吧。

import requests
import re
import os
from bs4 import BeautifulSoup

def GetPage(url):
    page = requests.get(url)
    html = page.text
    return html

def GetList(html):
    soup = BeautifulSoup(html, "html5lib")
    list = soup.find_all(href=re.compile("lectures/"))
    pdfs = []
    for li in list:
        if (li.get('href'))[-4:] == ".pdf":
            pdfs.append(li.get('href'))
    return pdfs
    
def DownloadPdf(pdf,root_url):
    path = "C:/Users/Downloads/cvx/" + pdf[9:]
    urls = root_url + pdf
    r = requests.get(urls)
    f = open(path, "wb")
    f.write(r.content)
    f.close()
    return urls

url = "https://web.stanford.edu/class/ee364b/lectures.html"
root_url = "https://web.stanford.edu/class/ee364b/"
#print(GetList(GetPage(url)))
pdfs = GetList(GetPage(url))
for pdf in pdfs:
    print("Download finished: "+DownloadPdf(pdf, root_url))

还有计划把Standford的cs224n的lecture slides下载下来慢慢看，就在这个代码的基础上改吧

猜你喜欢

转载自blog.csdn.net/albertyzy/article/details/80547435

初试Python爬虫下载pdf

python——爬虫初试。

Python 网络爬虫初试

用python爬虫批量下载pdf

用Python 爬虫批量下载PDF文档

精通Python爬虫框架Scrapy PDF下载

初试python爬虫之：豆瓣电影爬虫

爬虫初试

Python Scrapy 爬虫（二）：scrapy 初试

python3 爬虫（初试牛刀）

《Python网络爬虫实战胡松涛编著》PDF版下载

python3爬虫下载网页上的pdf

《Python网络爬虫实战》PDF版电子书下载

《PYTHON网络爬虫从入门到实践》pdf 附下载链接

利用python3爬虫下载图片、pdf文档

《Python 网络爬虫权威指南》分享 pdf下载

python爬虫开发与项目实战PDF文档免费下载

精通Python网络爬虫PDF文档免费下载

Python批量爬虫下载PDF文件代码实现

python知网爬虫论文pdf下载+立即可用（动态爬虫）

python爬虫scrapy框架入坑(二)：初试Scrapy

初试python爬虫（我爬我自己的博客）

python初试

初试python

java爬虫初试（二）

python批量下载pdf

Python编程 PDF下载

流畅的Python PDF下载

A Byte of Python PDF下载

精通Python网络爬虫核心技术、框架与项目实战 ,韦玮 pdf！附下载

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)