Python 网络爬虫笔记5 -- Beautiful Soup库实战

其他 2018-11-09 09:51:16 阅读次数: 0

版权声明： https://blog.csdn.net/Wang_Jiankun/article/details/83757133

Python 网络爬虫笔记5 – Beautiful Soup库实战

Python 网络爬虫系列笔记是笔者在学习嵩天老师的《Python网络爬虫与信息提取》课程及笔者实践网络爬虫的笔记。

课程链接：Python网络爬虫与信息提取
参考文档：
Requests 官方文档（英文）
Requests 官方文档（中文）
Beautiful Soup 官方文档
 re 官方文档
 Scrapy 官方文档（英文）
Scrapy 官方文档（中文）

中国大学排名定向爬虫

软科中国大学排名：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html

import requests
from bs4 import BeautifulSoup
import bs4

def get_html_text(url):
    """
    从网络上获取大学排名网页内容
    """
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def fill_univ_list(univ_list, html):
    """
    提取网页内容中的信息（大学排名表）到合适的数据结构
    """
    soup = BeautifulSoup(html, "html.parser")
   
    # 分析网页源代码，确定检索的内容
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            univ_list.append([tds[0].string, tds[1].string, tds[3].string])


def print_univ_list(univ_list, num):
    """
    输出结果，即大学排名表
    """
    # 格式化输出，使用中文字符填充空白实现居中对齐
    template = "{0:^10}\t{1:{3}^10}\t{2:^10}"
    print(template.format("排名", "学校名称", "总分", chr(12288)))
    for i in range(num):
        u = univ_list[i]
        print(template.format(u[0], u[1], u[2], chr(12288)))


def main():
    """
    输入大学排名的 url，得到排名表
    """
    univ_info = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'
    html = get_html_text(url)
    fill_univ_list(univ_info, html)
    print_univ_list(univ_info, 20)  # 20 univs

if __name__ == '__main__':
    print('running crawl_ranking')
    main()

猜你喜欢

转载自blog.csdn.net/Wang_Jiankun/article/details/83757133

Python 网络爬虫笔记5 -- Beautiful Soup库实战

初探Python网络爬虫：Beautiful Soup库

Python网络爬虫（四）——Beautiful Soup库

Python网络爬虫之提取&Beautiful Soup库入门学习笔记手札及代码实战

Python 网络爬虫笔记3 -- Beautiful Soup库

python爬虫之Beautiful Soup实战

Python 爬虫解析库的使用 --- Beautiful Soup

Python爬虫库-Beautiful Soup的使用

04 Python爬虫之Beautiful Soup库

Python爬虫入门——Beautiful Soup库的使用

python爬虫--03 Beautiful Soup库

Beautiful Soup库 - Python爬虫(二)

Python爬虫--Beautiful Soup

Python3爬虫笔记 -- 解析库Beautiful Soup

Beautiful Soup库笔记

Python 爬虫 ---- Beautiful Soup（二）

Python 爬虫 ---- Beautiful Soup（一）

Python爬虫利器之Beautiful Soup入门详解，实战总结！！！

【python爬虫自学笔记】-----Beautiful Soup 用法

【Python3 爬虫学习笔记】解析库的使用 7 —— Beautiful Soup 5

【Python3 爬虫学习笔记】解析库的使用 5 —— Beautiful Soup 3

Python笔记：网络爬虫之XPath、Beautiful Soup、PyQuery的使用

python网络爬虫学习笔记（九）：Beautiful Soup的使用

Python网络爬虫与信息提取笔记04-Beautiful Soup库入门

python3爬虫（二）：解析库之Beautiful Soup

Python爬虫之Beautiful Soup解析库的使用（五）

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

小白学 Python 爬虫（22）：解析库 Beautiful Soup（下）

Python爬虫学习（二）使用Beautiful Soup库

Python爬虫学习（四）Beautiful Soup库入门

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)