【Python爬虫】从html里爬取中国大学排名 - 代码天地

【Python爬虫】从html里爬取中国大学排名

其他 2018-05-06 14:10:06 阅读次数: 3

from bs4 import BeautifulSoup
import requests
import bs4      #bs4.element.Tag时用的上
#获取网页页面HTML
def getHTMLText(url):
    try:
        r = requests.request("get", url,timeout=30)
        r.raise_for_status()    #如不是200报错
        r.encoding = r.apparent_encoding    #猜测编码然后赋予给解码 编码模式
        demo = r.text
        soup = BeautifulSoup(demo, "html.parser")   #做汤
        return soup
    except:
        return ""
#分析并返回列表
def fillUnivList(ulist,html):
    soup = html
    for tr in soup.find("tbody").children:  #从汤里找tbody标签的儿子遍历
        if isinstance(tr,bs4.element.Tag):  #如果标签是标签名字
            tds = tr("td")  #寻找tr里所有td列表，然后赋予tds
            ulist.append([tds[0].string,tds[1].string,tds[3].string])   #加入013号
    pass    #？？？
#打印表格
def printUnivList(ulist,num):
    tplt = "{0:^10}\t{1:{3}^8}\t{2:^10}"    #模板
    print(tplt.format("排名","学校名称","总分",chr(12288))) #3号中文空格
    for i in range(num):
        u = ulist[i]    #列表中的0是一个拥有三个元素的列表
        print(tplt.format(u[0], u[1], u[2],chr(12288))) #拥有三个元素的列表按模板打印

    print("Suc" + str(num))
#主函数
def main():
    uinfo = []  #创建一个列表
    url = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html"
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20) #打印20个大学

main()

猜你喜欢

转载自www.cnblogs.com/naraka/p/8998107.html

【Python爬虫】从html里爬取中国大学排名

python 爬虫实例爬取中国大学排名

定向爬虫，爬取中国大学排名 Python

爬取中国大学排名

中国大学排名的爬取

python爬取中国大学排名

【python】爬取中国大学排名

Python爬虫——定向爬取“中国大学排名网”

python爬虫爬取2020年中国大学排名

Python爬虫入门实例三之爬取软科中国大学排名

国内大学排名如何？用Python爬取中国大学排名

中国大学排名定向爬取

实例一：中国大学排名爬取

初学爬虫之访问goole网页与爬取中国大学排名。

网络爬虫爬取中国大学排名，并存入数据库

Python定向爬取单网页中国大学排名（一）

python-爬取中国大学排名（第五周）

使用Python爬取中国大学排名，并格式化对其输出内容

2023年python爬取中国大学排名并且进行数据分析

Python 中国大学排名定向爬虫

python定向爬虫实例-中国大学排名

【Python爬虫】 2020中国大学排名

中国大学排名定向爬虫

爬虫中国大学排名

python 中国大学排名

python爬虫爬取最好大学排名

Python爬虫之BeautifulSoup库——爬取大学排名

爬虫爬取大学排名示例

【网络爬虫】爬取中国大学排名网站上的排名信息，将排名前20的大学的信息保存为文本文件并在窗口打印的python程序

爬取中国大学排名并以csv格式存储

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)