中国石油大学（华东）OJ题目的HTML爬取 - 代码天地

中国石油大学（华东）OJ题目的HTML爬取

其他 2018-07-21 17:35:17 阅读次数: 0

这几天刷华东OJ的题，写博客还要复制HTML的代码，感觉麻烦的一批，然后就去摸鱼写了个小爬虫。。

看一下运行效果吧～

输入详细的pid、cid或id即可爬取相应的html代码

一些注意要点：

关键的还是登陆问题，程序需要在同文件夹下添加一个“headers.csv”文件用于更新和保存cookie，内容包括浏览器标头和cookie就好。也可以看我的。。。

程序提示需要输入新的cookie时去浏览器登录一下把cookie复制进去就好。（什么，你不知道cookie从哪找？那你知道羊驼为什么会淹死吗？）

源码：

import requests
from requests.exceptions import RequestException
import re
import csv
headers={}
with open('headers.csv','r') as f:
    rawinfos=list(csv.reader(f))
    for i in rawinfos:
        headers[i[0]]=i[1]
def get_one_page(url, headers):
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            response.encoding = 'utf-8'
            return response.text
        return None
    except RequestException:
        return None
flag=int(input("是否为专题题目（0/1）："))
if flag:
    url="http://exam.upc.edu.cn/problem.php?cid="+input("专题(cid):")+"&pid="+input("题号(pid):")
else:
    url="http://exam.upc.edu.cn/problem.php?id="+input("题号(id):")
FLAG=False
html=get_one_page(url,headers)
while re.findall('<form id="(.*?)"', html,re.S)!=[]:
    headers['Cookie']=input('your cookie may lose efficacy, input again:')
    html=get_one_page(url,headers)
    FLAG=True
if FLAG:
    with open('headers.csv','w') as f:
        writer=csv.writer(f)
        for i in headers:
            data=[]
            data.append(i)
            data.append(headers[i])
            writer.writerow(data)
aim=re.findall('<!-- Main component for a primary marketing message or call to action -->(.*?)<!-- /container -->',html,re.S)
rr1=re.findall('<title>(.*?)</title>',aim[0],re.S)[0]
rr2=re.findall('<!--EndMarkForVirtualJudge-->(.*?)</center>',aim[0],re.S)[0]
tmp=aim[0]
tmp=tmp.replace("<title>"+rr1+"</title>",'')
tmp=tmp.replace(rr2,'')
print(tmp)

View Code

猜你喜欢

转载自www.cnblogs.com/Rhythm-/p/9347270.html

中国石油大学（华东）OJ题目的HTML爬取

中国石油大学OJ 5175 Blowing Candles（图包的宽度）旋转卡壳

中国石油大学OJ 第六场个人训练赛 Sandglass

中国石油大学OJ 第五场个人训练赛 Don't Be a Subsequence

中国石油大学OJ 第五场个人训练赛小奇遐想

铺地砖-中国石油大学oj(代码待补)

中国石油大学软件工程 26讲

中国石油大学《管理学》在线考试

中国石油大学《近代炼油技术》在线考试

中国石油大学《画法几何》在线考试

中国石油大学《化工原理二》

中国石油大学OJ 第五场个人训练赛所罗门王的宝藏

17届全国大学生智能汽车竞赛中国石油大学（华东）智能视觉组 --模型训练篇

17届全国大学生智能汽车竞赛中国石油大学（华东）智能视觉组国特开源

对话教授丨中国石油大学（华东）理学院：课赛结合打造有学科特色的数据科学与大数据技术专业

2018山东冬令营中国石油大学运动会II

中国石油大学个人训练赛第五场 e题

中国石油大学第六场个人训练赛 Trie树

中国石油大学个人训练赛第五场小奇画画

中国石油大学 Chip Factory(字典树处理异或最大值)

拯救花园-中国石油大学程序设计竞赛训练平台

中国石油大学天梯赛真题模拟第三场

中国石油大学天梯赛真题模拟第六场

中国石油大学天梯赛真题模拟第四场

中国石油大学ACM俱乐部开放训练赛

2020中国石油大学ACM俱乐部开放训练赛

2020中国石油大学ACM俱乐部开放训练赛

中国石油大学《化工设计概论》第三阶段在线作业

中国石油大学《化工设计概论》第二阶段在线作业

中国石油大学《化工原理二》第一阶段在线作业

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)