爬虫笔记3-提取信息 - 代码天地

爬虫笔记3-提取信息

其他 2020-02-20 22:01:30 阅读次数: 0

一.Beautiful soup安装

二.理解

三.页面遍历方法

四.bs4的格式化与编码

prettify函数能够通过添加缩进使代码更直观。

五.信息标记

不同语言的信息格式：

实例：

re为正则表达式库

七.实例：大学排名爬取

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4 
 5 def getHtmlText(url):
 6     try:
 7         r=requests.get(url,timeout=30)
 8         r.raise_for_status()
 9         r.encoding=r.apparent_encoding
10         return r.text
11     except:
12         return ""
13 
14 def fillUnivList(ulist,html):
15     soup=BeautifulSoup(html,"html.parser")
16     for tr in soup.find('tbody').children:#通过对源代码分析，是从body标签里的tr标签提取内容，
17         if isinstance(tr,bs4.element.Tag):
18             tds=tr('td')
19             ulist.append([tds[0].string,tds[1].string,tds[4].string])
20             
21 def printUnivList(ulist,num):
22     print("{:^10}\t{:^16}\t{:^16}".format("排名","学校名称","总分"))
23     for i in range(num):
24         u=ulist[i]
25         print("{:^10}\t{:^16}\t{:^16}".format(u[0],u[1],u[2]))
26     
27 def main():
28     uinfo=[]
29     url='http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
30     html=getHtmlText(url)
31     fillUnivList(uinfo,html)
32     printUnivList(uinfo,50)
33 
34 main()

1 def printUnivList(ulist,num):
2     textout="{0:^10}\t{1:{3}^16}\t{2:^16}"
3     print(textout.format("排名","学校名称","总分",chr(12288)))
4     for i in range(num):
5         u=ulist[i]
6         print(textout.format(u[0],u[1],u[2],chr(12288)))

格式优化，如果不规定空格填充，默认使用英文空格，中西结合的格式会使得排列很乱

前后对比，这个中文排版问题会一直出现，之后记得就好。

猜你喜欢

转载自www.cnblogs.com/m-tech-l/p/12274755.html

爬虫笔记3-提取信息

Python爬虫伪装浏览器，初步提取信息！

爬虫-提取信息-正则表达式

7 从文本提取信息

Python提取信息测试

Python学习（笔记3-网络爬虫）

初探爬虫：xpath提取信息，爬取页面小案例

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）

爬虫XPath表达式提取信息实用插件：XPath helper下载安装使用

Python爬虫笔记6 |信息标记与提取

Python爬虫学习笔记(信息的标记与提取)

python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行

爬虫链家网站获取信息

爬虫3-爬虫防范

第3次作业-MOOC学习笔记：Python网络爬虫与信息提取

第3次作业-MOCC学习笔记：Python网络爬虫与信息提取

被动信息收集-从DNS中提取信息

网络爬虫笔记3-相关库以及登录问题

python学习笔记之爬虫-3-初识scrapy

《Python自然语言处理（第二版）-Steven Bird等》学习笔记：第07章从文本提取信息

python爬虫笔记（五）网络爬虫之提取—信息组织与提取方法（3）基于bs4库的HTML内容查找方法

Jmeter 正则提取信息头或者响应码

nsfocus漏洞报告主机报表提取信息脚本

nsfocus远程安全评估系统报告提取信息脚本

自然语言处理（4）——从文本中提取信息

阿里巴巴开发手册提取信息

第七章-从文本中提取信息

java通过正则表达式提取信息

Python网络爬虫与信息提取笔记05-信息组织与提取方法

python学习笔记——爬虫中提取网页中的信息

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)