爬虫入门之爬取静态网页表格数据 - 代码天地

爬虫入门之爬取静态网页表格数据

其他 2018-11-16 19:59:26 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_30500113/article/details/83783834

我们的目标就是将这个表格中的数据爬下来保存成csv文件
目标链接:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html
在这里插入图片描述

内容解析部分我更喜欢使用Pyquery 你也可以使用其他的解析方式

#!/usr/bin/env python 
# -*- coding: utf-8 -*-
import requests
from pyquery import PyQuery as pq


def get_page(url):
    """发起请求 获得源码"""
    r = requests.get(url)
    r.encoding = 'utf8'
    html = r.text
    return html


def parse(text):
    """解析数据 写入文件"""
    doc = pq(text)
    # 获得每一行的tr标签
    tds = doc('table.table tbody tr.alt').items()
    for td in tds:
        rank = td.find('td:first-child').text()     # 排名
        name = td.find('div').text()  # 大学名称
        city = td.find('td:nth-child(3)').text()    # 城市
        score = td.find('td:nth-child(4)').text()   # 总分
        with open('college.csv', 'a+', encoding='utf8') as f:
            f.write(rank + '\t\t')
            f.write(name + '\t\t')
            f.write(city + '\t\t')
            f.write(score + '\t\t\n')
    print("写入完成")


if __name__ == "__main__":
    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"
    text = get_page(url)
    parse(text)

运行代码之后查看文件

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_30500113/article/details/83783834

爬虫入门之爬取静态网页表格数据

爬虫入门（一）：用Python爬取静态HTML网页

爬虫入门——静态网页爬取：批量获取高清壁纸

Python爬虫入门教程二：爬取静态网页

爬虫——爬取网页数据存入表格

python学习笔记之网络爬虫(八) 静态网页和动态网页爬取(1)静态网页爬取

爬虫爬取网页上的表格

爬虫入门实践之使用Urllib爬取网页

python爬虫之爬取案例网页ajax请求的数据

C# 爬取静态网页入门

Python网络爬虫实现HTTP请求、解析网页和数据存储（简单静态网页爬取）

Python爬虫入门——爬取网页图片

python爬虫,爬取表格数据

爬取静态网页

【Java爬虫】使用Jsoup爬取网页表格的分页信息

python爬虫入门之移动端数据的爬取

Python网络爬虫技巧小总结，静态、动态网页轻松爬取数据

10- 30简单爬虫 - 静态网页爬取

使用Python爬虫爬取简单网页（Python爬虫入门）

python爬虫之爬取案例网页ajax请求的数据3之实现跨页爬取

python爬虫之爬取案例网页ajax请求的数据2之跳转url下载图片

爬虫快速入门——简单爬取数据

简单爬虫操作：1.简单爬取网页数据并输出 2.爬取数据打印到xls表格中

Python示例代码之爬取网页中的表格

简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据

python 爬取静态网页

python爬虫入门（1）简单爬取网页源码

爬虫简易入门代码-爬取简单网页图片

Python爬虫入门：爬取某个网页的小说内容

python爬虫入门（一）——爬取整个网页的源码

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)