2021-2-8爬取中国大学排名 - 代码天地

2021-2-8爬取中国大学排名

其他 2021-03-21 14:12:45 阅读次数: 0

时间：2021-2-8

获取url（https://www.shanghairanking.cn/rankings/bcur/2020）

在这里插入图片描述

分析HTML

打开网页源码，找到清华大学。
在这里插入图片描述
分析所需信息所在的标签位置。

排名和分数仍在在td标签中，但是清华大学名称在a标签中

编写python文件

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return"获取失败"


def fillUnivList(ulist,html):
    soup=BeautifulSoup(html,"html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr,bs4.element.Tag):
            tds=tr('td')
            tbs=tr('a')
        ulist.append([tds[0].text.strip(),tbs[0].text.strip(),tds[-2].text.strip()])
    pass


def printUnivList(ulist,num):
    tplt="{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(tplt.format("排名","学校名称","总分",chr(12288)))
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))


def main():
    ulnfo=[]
    url="https://www.shanghairanking.cn/rankings/bcur/202011"
    html=getHTMLText(url)
    if html=="获取失败":
        print(html)
    else:
        fillUnivList(ulnfo,html)
        printUnivList(ulnfo,20)
main()

爬取信息

在这里插入图片描述
编写爬虫文件最重要的是会分析html，最好能看懂html源码，能够更方便的编写爬虫。
网页更新后需要重新获取url和分析html网页。

猜你喜欢

转载自blog.csdn.net/weixin_50835854/article/details/113761442

2021-2-8爬取中国大学排名

爬取中国大学排名

中国大学排名的爬取

中国大学排名定向爬取

python 爬虫实例爬取中国大学排名

定向爬虫，爬取中国大学排名 Python

实例一：中国大学排名爬取

python爬取中国大学排名

【python】爬取中国大学排名

国内大学排名如何？用Python爬取中国大学排名

【Python爬虫】从html里爬取中国大学排名

Python定向爬取单网页中国大学排名（一）

爬取中国大学排名并以csv格式存储

初学爬虫之访问goole网页与爬取中国大学排名。

网络爬虫爬取中国大学排名，并存入数据库

Python爬虫——定向爬取“中国大学排名网”

python-爬取中国大学排名（第五周）

使用Python爬取中国大学排名，并格式化对其输出内容

python爬虫爬取2020年中国大学排名

爬取中国大学排名时报错：AttributeError: 'NoneType' object has no attribute 'children'

Python爬虫入门实例三之爬取软科中国大学排名

2023年python爬取中国大学排名并且进行数据分析

爬2015年中国大学排名

中国大学定向排名爬取

记录慕课学习爬取中国大学排名（由上交大计算的排名结果）

爬取软科中国最好大学排名

中国大学排名定向爬虫

python 中国大学排名

爬虫中国大学排名

爬取定向网页大学排名

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)