python爬虫简单实例 - 代码天地

python爬虫简单实例

编程语言 2018-07-23 14:39:22 阅读次数: 0

介绍

主要是用来抓取全国主要省份的邮政编码，官方网址为：http://www.ip138.com/post/

这里写图片描述

通过在网页上右键来查看审查元素，然后在html内可以发现以下内容，而爬虫也正是要爬取这些内容。

这里写图片描述

源代码

import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
    def __init__(self, provinces):
        self.provinces = provinces

    # 处理标签开始
    def start_element(self, name, attrs):
        if name != 'map':
            name = attrs['title']
            number = attrs['href']
            self.provinces.append((name, number))

    # 处理标签结束
    def end_element(self, name):
        pass

    # 文本处理
    def char_data(self, text):
        pass

def get_province_entry(url):
    # 获取文本，并用gb2312解码
    content = requests.get(url).content.decode('gb2312')#编码方式
   # print(content)
    # 确定要查找字符串的开始结束位置，并用切片获取内容。
    #开始和结束标志
    start = content.find('<map name=\"map_86\" id=\"map_86\">')
    end = content.find('</map>')
   # print(start,end)
    content = content[start:end + len('</map>')].strip()
    #print(content)
    provinces = []
    # 生成Sax处理器
    handler = DefaultSaxHandler(provinces)
    # 初始化分析器
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data
    # 解析数据
    parser.Parse(content)
    # 结果字典为每一页的入口代码
    return provinces

#从哪个页面进入
provinces = get_province_entry('http://www.ip138.com/post')
print(provinces)

爬取结果

可以看到已经成功地从网页上爬取到各省份的邮政编码。

这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_29462849/article/details/81163893

python爬虫简单实例

Python简单爬虫实例

python基础之简单爬虫实例

Python一个简单的爬虫实例

$python爬虫系列（1）——一个简单的爬虫实例

简单爬虫实例

Scrapy爬虫简单实例

Python学习笔记之开发简单爬虫和实例

简单Python爬虫实例：抓取豆瓣热映电影信息

Python 3学习笔记（3）：简单的爬虫实例

python简单爬虫实例，爬取CSDN文章

这个Python爬虫的简单入门及实用的实例，你会吗？

Python爬虫实例：自制翻译机（简单）

Python 网络爬虫--关于简单的模拟登录实例讲解

python爬虫库scrapy简单使用实例详解

Python爬虫库BeautifulSoup的介绍与简单使用实例

python爬虫实例 python爬虫实例

【Python】什么是爬虫，爬虫实例

Python网络爬虫实例

Python爬虫实例（一）

网络爬虫，Python实例

python(六)爬虫实例

python爬虫小实例

python Scrapy 爬虫实例

python爬虫实例

python 爬虫实例（三）

python 爬虫实例（四）

python爬虫实例大全

python(爬虫)实例演示

python 爬虫实例

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)