国内大学排名如何？用Python爬取中国大学排名

其他 2020-04-10 10:26:46 阅读次数: 0

国内大学排名如何？用Python爬取中国大学排名

准备阶段

需要的库
robots协议

上代码

代码框架
*获取url信息
*解析信息
*输出数据
*主函数

结果

准备阶段

新手入门，不喜勿喷，这篇文章的内容其实也是在中国大学MOOC 北理工嵩天老师的课程基础上完成。由于大学排名有众多不同的影响因素，根据指标不同，有很多排名，我们就选取最好大学网的排名。

需要的库

import requests
from bs4 import BeautifulSoup
import bs4

robots协议

如下图，显然，这个网站没有robots协议，也就是说，我们可以认为它是允许所有的爬虫进行爬取任何内容的。

上代码

代码框架

def getHTMLtext(url):
    try:
    	return r.text
 	except:
        return ""
def fillunivlist(ulist,html):
	return ""
def printlist(ulist,num):
	return ""
def main():
	return ""
main()

大概就是这样，我们定义四个函数。
其大体作用分别为获取url信息；解析信息并填写在列表中；输出信息；提供url并执行函数……

*获取url信息

def getHTMLtext(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""

*解析信息

def fillunivlist(ulist,html):
    soup=BeautifulSoup(html,"lxml")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds=tr('td')
            ulist.append([tds[0].string,tds[1].string,tds[3].string])

*输出数据

def printlist(ulist,num):
    tplt="{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

*主函数

def main():
    uinfo=[]
    url='http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
    html=getHTMLtext(url)
    fillunivlist(uinfo,html)
    printlist(uinfo,20)
main()

结果

由于数据比较多，我们就取前20看一下效果吧！
在这里插入图片描述

发布了4 篇原创文章 · 获赞 8 · 访问量 461

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_46283214/article/details/105308199

国内大学排名如何？用Python爬取中国大学排名

爬取中国大学排名

中国大学排名的爬取

python 爬虫实例爬取中国大学排名

定向爬虫，爬取中国大学排名 Python

python爬取中国大学排名

【python】爬取中国大学排名

中国大学排名定向爬取

实例一：中国大学排名爬取

python 中国大学排名

定向爬取大学排名-Python

【Python爬虫】从html里爬取中国大学排名

Python定向爬取单网页中国大学排名（一）

Python爬虫——定向爬取“中国大学排名网”

python-爬取中国大学排名（第五周）

使用Python爬取中国大学排名，并格式化对其输出内容

python爬虫爬取2020年中国大学排名

Python爬虫入门实例三之爬取软科中国大学排名

2023年python爬取中国大学排名并且进行数据分析

爬2015年中国大学排名

中国大学排名定向爬虫

爬虫中国大学排名

python爬取大学排名，电影的排名与评分

Python 中国大学排名定向爬虫

python定向爬虫实例-中国大学排名

【Python爬虫】 2020中国大学排名

爬取中国大学排名并以csv格式存储

初学爬虫之访问goole网页与爬取中国大学排名。

网络爬虫爬取中国大学排名，并存入数据库

爬取中国大学排名时报错：AttributeError: 'NoneType' object has no attribute 'children'

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)