爬取湖北师范大学官网公告和具体内容并保存成json格式 - 代码天地

爬取湖北师范大学官网公告和具体内容并保存成json格式

其他 2019-11-17 19:50:47 阅读次数: 0

from urllib import request
import json
from bs4 import BeautifulSoup #一个可以从html或者xml中提取结构化数据的python库
import re
def hbnu():
url = 'http://www.hbnu.edu.cn/'
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}
page = request.Request(url,headers=headers)
#打开url，获取httpresponse返回对象并读取其responsebody
page_info = request.urlopen(page).read().decode('utf-8')
#将获取到的内容转换成BeautifulSoup格式，并将html.parser作为解析器
soup = BeautifulSoup(page_info,'html.parser')
#以格式化的形式打印html
#查找所有a标签中class='title'的语句
cd = soup.find_all(title=True,href=True)
h=[]
t=[]
p=[]
a={}
u=[]
for c in cd:
if 'http://www.news.hbnu.edu.cn/'in str(c.get('href')):
h.append(c.get('href'))
t.append(c.get('title'))
h = sorted(set(h),key=h.index)
t = sorted(set(t),key=t.index)
for l in range(len(h)):
url = h[l]
headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'}
page = request.Request(url,headers=headers)
#打开url，获取httpresponse返回对象并读取其responsebody
page_info = request.urlopen(page).read().decode('utf-8')
#将获取到的内容转换成BeautifulSoup格式，并将html.parser作为解析器
soup = BeautifulSoup(page_info,'html.parser')
cdd=soup.find_all(class_="arti_update")
for x in cdd:
p.append(x.get_text())
cdd=soup.find_all('p')
e=[]
for v in cdd:
if '通讯'not in str(v.get_text())and '新闻'not in str(v.get_text()):
e.append(v.get_text())
e = sorted(set(e),key=e.index)
e='\n'.join(e)
for v in cd:
a['content']=str(e)
a['href']=h[l]
a['title']=t[l]
a['time']=p[l]
a["school"]="湖北师范大学"
u.append({'content':str(e),'href':h[l],'title':t[l],'time':p[l],'school':"湖北师范大学"})
key={'湖北师范大学':u}
with open("E:\小程序内容\学校\\湖北师范大学.json", "a+",encoding='utf-8_sig')as f:
json.dump(key,f,sort_keys=True,indent =4,ensure_ascii=False)
key_1=json.dumps(key,sort_keys=True,indent =4,ensure_ascii=False)
print(json.loads(key_1))

猜你喜欢

转载自www.cnblogs.com/busishum/p/11877600.html

爬取湖北师范大学官网公告和具体内容并保存成json格式

爬取湖北师范大学招生信息网中的专业简介

湖北师范大学操作系统实验

LCD的具体内容

链接的具体内容

powerdesign不显示具体内容

车牌识别技术的具体内容

Android SP的具体内容

windows10s的具体内容和永久激活步骤和方法

[2018西北师范大学_助教博客] 助教总结

交互验收的4项常规流程和8个具体内容

ImageNet 1000个类具体内容

marshal的stream里面查看具体内容的结构体

sql查询clob类型数据显示具体内容

页面具体内容分析

关于分模块开发大的具体内容。

黄金投资规则具体内容是什么

APP产品经理岗位的具体内容（合集）

Python爬取比比网中标标书并保存成PDF格式

C#导出Excel的具体代码，供大家参考，具体内容请求URL

第十二届东北师范大学程序设计竞赛正式赛题解

[2018西北师范大学_助教博客] 个人学期总结（附加分）

西北师范大学软件工程课程助教总结

河北师范大学2016年6月13号选课检测报告

河北师范大学软件学院18暑期培训总结

第一次博客作业 <西北师范大学| 周安伟>

第三周博客作业<西北师范大学|李晓婷>

第二周博客作业<西北师范大学|李晓婷>

第四周博客作业 <西北师范大学| 周安伟>

第五周博客作业<西北师范大学|李晓婷>

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)