python爬虫（三）：BeautifulSoup 【6. 实例】 - 代码天地

python爬虫（三）：BeautifulSoup 【6. 实例】

编程语言 2018-12-09 12:20:51 阅读次数: 0

爬取最好大学网的大学排名

需要掌握的其它知识：

（1）列表

list1=[1,2,3]，list1.append([3,4])

（2）format用法

.format 比 % 更好用，按位置替换，详细了解可以参考网址

https://blog.csdn.net/u014770372/article/details/76021988

（3）输出的格式

print("{}\t{:^20}\t{}".format("排名","学校名称","总分"))

\t：制表符

^：居中，默认是左对齐

20：宽度，默认是10

（4）find_all('td').string

find_all()方法因为找到了多个td，所以是个列表，不能直接.string，要这样

soup.find_all('td')[0].string

soup.find_all('td')[1].string

输出结果：

# requests库连接网站取出数据，bs4库html解析

import requests

from bs4 import BeautifulSoup

import bs4

# 获取网页内容

def getHTMLText(url):

try:

r = requests.get(url, timeout = 30)

# 判断网页状态,200为正常

r.raise_for_status()

# 修改编码,apparent_coding是基于文本内容分析出的格式

r.encoding = r.apparent_encoding

return r.text

except:

# 异常则返回一个空字符串

return ""

# 提取网页内容(r.text）到合适的数据结构(列表)

def fillUnivList(ulist, html):

soup = BeautifulSoup(html, 'html.parser')

# 观察发现大学信息都在标签tbody-tr-td中，遍历子节点的标签，找出td

for i in soup.find('tbody').children:

# isinstance是python判断变量类型的函数，bs4.element.Tag是标签，如soup.a

# Tag的常用操作有.name .attrs .string

if isinstance(i, bs4.element.Tag):

# 可简写为tds = i('td')

tds = i('td')

# 取出大学排名、名称、评分，加到ulist列表中

ulist.append([tds[0].string, tds[1].string, tds[2].string])

# 输出信息，num是输出信息的条数

def printUnivList(ulist, num):

# 格式化输出

# 表头

print("{:^10}\t{:^6}\t{:^10}".format("排名", "学校名称", "总分"))

# 表内容

for i in range(num):

u = ulist[i]

print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1],u[2]))

# 主函数

def main():

# 大学信息放到列表unifo中

uinfo = []

url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2018.html'

html = getHTMLText(url)

fillUnivList(uinfo, html)

printUnivList(uinfo, 20)

main()

猜你喜欢

转载自blog.csdn.net/weixin_42490528/article/details/84924887

python爬虫（三）：BeautifulSoup 【6. 实例】

python网络爬虫三BeautifulSoup库及其实例操作

6. Python 模块

python数据分析之爬虫三：BeautifulSoup库爬虫实例

6. Python变量类型

python 爬虫实例（三）

6. cocos-2dx Shader(二) 实例应用

6.爬虫 requests库讲解总结

Python爬虫6：使用API及实例

6. NIO三核心（Selector）

[Python][爬虫03]requests+BeautifulSoup实例:抓取图片并保存

Python爬虫包 BeautifulSoup 递归抓取实例详解

Python使用requests及BeautifulSoup构建爬虫实例代码

Python爬虫库BeautifulSoup的介绍与简单使用实例

【python爬虫系列】6.本地数据存储

6.用python写网络爬虫，表单交互

简要Python开发讲义 - 6. 函数

6. python Collections -- Counter objects

python高级6.多任务--进程

python leetcode 6. ZigZag Conversion

python——Django——6.模型类

6.类,文件和异常-python

Python 练习实例6

python定向爬虫实例（三）

爬虫：BeautifulSoup(6)--select

爬虫6——BeautifulSoup(2)

Python实例---beautifulsoup小Demo

Python爬虫精简步骤6 用BeautifulSoup提取数据

JBPM4入门——6.流程实例的创建和执行

结合BeautifulSoup和hackhttp的爬虫实例

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)