4爬虫实例----大学排名 - 代码天地

4爬虫实例----大学排名

编程语言 2019-01-10 15:56:32 阅读次数: 0

输入：大学排名网站的url链接
输出：大学排名信息的屏幕输出（排名，学校名称，总分）
技术：requests-bs4
此为定向爬虫，仅对给定的url进行爬取，不扩展爬取

步骤1：获取网页内容 getHTMLText()
步骤2：提取所需内容并放入合适的数据结构中fillUnivList()
步骤3：展示结果 printUnivList()

import requests
from bs4 import BeautifulSoup使用bs4库中的BeautifulSoup类
import bs4 为了使用bs4库中的标签类型定义
解决编码问题
import sys
reload(sys)
sys.setdefaultencoding(“utf-8”)

def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return “”

def fillUnivList(ulist,html):
soup=BeautifulSoup(html,“html.parser”)
for tr in soup.find(‘tbody’).children:
if isinstance(tr,bs4.element.Tag):判断是tr标签的
tds=tr(‘td’)tr中的td标签存在tds中，(…)==.find_all(…)
ulist.append([tds[0].string,tds[1].string,tds[2].string])

def printUnivList(ulist,num):
^10意思是长度10
tplt="{0:^10}\t{1:10}\t{2:^10}"
采用中文字符填充空格补齐chr(12288)，自动补齐会默认英文空格补齐
print(tplt.format(“排名”,“学校名称”,“总分”,chr(12288)))
实现表头的打印
for i in range(num):
u=ulist[i]
print(tplt.format(u[0],u[1],u[2],char(12288)))

def main():
uinfo=[]
url=’’
html=getHTMLText(url)
fillUnivList(uinfo,html)
printUnivList(uinfo,20)

main()

猜你喜欢

转载自blog.csdn.net/ajx10132/article/details/86065278

4爬虫实例----大学排名

【python爬虫学习笔记】05 利用requests-bs4的大学排名定向爬虫的实例

爬虫：中国大学排名定向爬虫实例

爬虫（五）“中国大学排名定向爬虫”实例

爬虫——最好大学排名实例

中国大学排名定向爬虫实例

python 爬虫实例爬取中国大学排名

爬虫日记-最好大学排名实例

中国大学排名（定向爬虫）实例

python定向爬虫实例-中国大学排名

BS4_中国大学排名定向爬虫

re-bs4 实例：中国大学排名

python 爬虫 4 （实例：世界大学排名列表、手写分布式爬虫）

python爬虫笔记（五）网络爬虫之提取——实例：中国大学排名爬虫

python爬虫笔记（五）网络爬虫之提取——实例优化：中国大学排名爬虫

中国大学排名定向爬虫

爬虫中国最好的大学排名

爬虫爬取大学排名示例

python爬虫--09 大学排名

爬虫中国大学排名

使用python爬虫爬取最好大学网大学排名实例

Python爬虫学习笔记(实例：中国好大学排名定向爬虫)

爬虫练手小实例---【大学排名定向爬取】

小白学爬虫笔记9---实例：中国好大学排名

Python3.6——"中国大学排名定向爬虫"实例介绍

爬虫之爬取最好大学排名实例

Python爬虫实例——2019中国大学排名100强

Python爬虫入门实例三之爬取软科中国大学排名

获取中国大学排名相关信息的爬虫实例

网络爬虫：中国大学排名定向爬虫

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)