spark学习进度7-Python爬取大学排名实例 - 代码天地

spark学习进度7-Python爬取大学排名实例

其他 2020-02-07 22:17:26 阅读次数: 0

利用pc编写python爬取大学排名的数据，如图：

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")#bs4的html解析器
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):# bs4.element.Tag是标签类型
            tds = tr('td')#将所有的td标签存为一个列表类型
            ulist.append([tds[0].string, tds[1].string, tds[2].string])

def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}".format("排名", "学校名称", "所在地区"))
    for i in range(num):
        u = ulist[i]
        print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1], u[2]))

def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)
main()

代码主要利用了BeautifulSoup库来对response对象进行解析，并通过对指定标签的子标签的遍历得到需要的数据。

结果截图：

猜你喜欢

转载自www.cnblogs.com/123456www/p/12274783.html

spark学习进度7-Python爬取大学排名实例

使用python爬虫爬取最好大学网大学排名实例

python 爬虫实例爬取中国大学排名

爬虫之爬取最好大学排名实例

定向爬取大学排名-Python

python爬取大学排名，电影的排名与评分

实例一：中国大学排名爬取

Python爬虫入门实例三之爬取软科中国大学排名

国内大学排名如何？用Python爬取中国大学排名

定向爬虫，爬取中国大学排名 Python

Python使用BeautifulSoup与Requests爬取大学排名

python爬虫爬取最好大学排名

Python爬虫之BeautifulSoup库——爬取大学排名

python爬取中国大学排名

【python】爬取中国大学排名

爬取中国大学排名

爬取定向网页大学排名

爬虫爬取大学排名示例

中国大学排名的爬取

爬虫——最好大学排名实例

爬虫日记-最好大学排名实例

爬虫练手小实例---【大学排名定向爬取】

【实例】爬取2018中国最好大学排名

使用Python爬取最好大学网大学排名

Python 最好大学网大学排名爬取（2020年）

【Python爬虫】从html里爬取中国大学排名

利用python第三方selenium库爬取QS大学排名

通过分析Ajax接口用Python爬取QS全球大学排名

Python定向爬取单网页中国大学排名（一）

Python爬虫——定向爬取“中国大学排名网”

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)