【Python】Python爬取复旦大学拟录取硕士名单公示——Adobe Flash Player的内容 - 代码天地

【Python】Python爬取复旦大学拟录取硕士名单公示——Adobe Flash Player的内容

移动开发 2018-05-15 12:24:24 阅读次数: 2

1.手动获取：

下载fiddler抓包工具：https://www.telerik.com/fiddler

安装好后打开fiddler，进入网页：http://www.gsao.fudan.edu.cn/2b/22/c1659a142114/page.htm

fiddler获取到一系列http请求，选择result为200的逐个点入查看request headers：

将src=后的内容添加到www.gsao.fudan.edu.cn后，组成新的url并进入查看，获得：http://www.gsao.fudan.edu.cn/_upload/article/files/71/90/4c4bfcd549cda2bf829ed28a6827/1078b5c8-254b-496d-af7a-1610c1327378.pdf，这就是公示名单的原始pdf

2.借助python：

右键->检查元素，存在两个class=wp_pdf_player，分别是上下两个浏览窗口：

可以看到pdfsrc后的内容就是我们使用fiddler抓取到的src，于是利用正则表达式抓取这个地址，添加到http://www.gsao.fudan.edu.cn后，就是pdf的下载地址，一共有两个pdfsrc，分别是1页的封面和168页的公示名单。

效果截图：

# -*- coding: utf-8 -*-
import requests
import re
import wget

class downloader(object):

    def __init__(self):
        self.server='http://www.gsao.fudan.edu.cn'
        self.target='http://www.gsao.fudan.edu.cn/2b/22/c1659a142114/page.htm'
        self.urls=[]

    def get_download_urls(self):
        req=requests.get(self.target)
        html=req.text
        pattern=re.compile(r'pdfsrc="(.*?)"')
        result=pattern.findall(str(html))
        for i in range(len(result)):
            self.urls.append(result[i])

    def get_pdf(self):
        for i in range(len(self.urls)):
            target=self.server+self.urls[i]
            wget.download(target,'D:/python tests/ZQfd_paiming/pdf/')      #下载

if __name__=='__main__':

    dl=downloader()
    dl.get_download_urls()
    print('开始下载！')
    dl.get_pdf()
    print('下载完成！')

猜你喜欢

转载自blog.csdn.net/Li_Jiaqian/article/details/80297873

【Python】Python爬取复旦大学拟录取硕士名单公示——Adobe Flash Player的内容

Adobe Flash Player PPAPI 32.0.0.330

Adobe Flash Player社工钓鱼

Adobe Flash Player for chrome Mac版(flash player插件)

Flash Builder 4-找不到所需的 Adobe Flash Player

centOS下安装Adobe Flash Player

ubuntu adobe flash player已过期

Ubunt下为firefox安装Adobe Flash Player

ubuntu12.04安装adobe flash player

ubuntu下安装Adobe Flash Player

Ubuntu下为Firefox安装Adobe Flash Player

Install Adobe Flash Player 10 on Ubuntu

OpenSUSE 下安装adobe flash player

Ubuntu安装Adobe Flash Player 11

Debian下安装Adobe Flash Player

提示adobe flash player插件已被屏蔽

Adobe Flash Player解除限制版

在 Linux 上安装 Adobe Flash Player

离线下载adobe flash player

ubuntu16.04安装adobe flash player

应用安全 - 工具 - Adobe - Adobe Flash Player - 漏洞 - 汇总

flash player plugin

kali安装flash player

ubuntu安装flash player

Flash Player 32.0.0.344 大全

Adobe 强烈建议删除 Flash Player ，苹果 macOS 电脑如何完全删除 Adobe Flash

CentOS7使用YUM安装Adobe Flash Player

centos64位安装Adobe Flash Player

CentOS6.4使用YUM安装Adobe Flash Player

Ubuntu中Adobe Flash Player 64-bit图解安装

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)