Python入坑系列 -- 序言 - 代码天地

Python入坑系列 -- 序言

其他 2020-08-12 07:54:25 阅读次数: 0

实在而言，为什么会学一门新语言，是一个很难以叙说的事情，可能就是为了尝试新的实现，也可能是为了拓展广度，虽然我知道贪多嚼不烂这个问题，但是还是忍不住说道: 真香~~~

开始是因为女同事让我去爬取国家统计局的省市区街道办的数据，然后想着应该不怎么难，就答应下来，不就应该解析页面获取节点内容跟xml解析应该差不多吗，随之一去不复返，看来这股劲头是拉不回来了。

网页访问流程简析：

目录

网页访问流程简析：

分析需求：

1、网页结构剖析

2、实现思路

先是去了解一下解析流程：

对于这个访问流程，虽然简陋，但是对于我们而言，应该简单明了。

从用户点击触发访问 ————> 浏览器包装转发 ————> 服务端处理返回数据结构 ————>浏览器解析———>用户

分析需求：

1、网页结构剖析

我们所需要获取的内容存在于深层次的网页中，但是无论怎么变，父级页面与子级页面总有关联的数据，方便让我们进入深层及的页面，当然，我所爬取的内容也是这个结构即：省 ——> 市 ——>区(县) ——>街道(镇) ——> 居委会

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/index.html 2017年统计局资料

比如省（直辖市）：标签下有数字，就拿广东（44）说事，点进去的URL是这样

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/44.html

第二层次是省下面的行政区域，然后你惊奇发现，url里面的后缀例如广州市（4401）

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/44/4401.html

这里一级级都有规律可循，那就容易多了。

2、实现思路

既然结构已经获取出来，那么我们就可以对其进行解刨，像我们读取配置文件，读取xml那样去将所需要的数据一一延伸获取，xml有dom4j之类的处理，配置文件也有它的Property操作，网页不可能没有它的操作。常规谷歌操作之后，发现真的有一类汤（soup）用来处理这些佐料，java有Jsoup（对不起，开头了就不提了，不打脸，如需自行谷歌），python 有它的 BeautifulSoup 。

Beautiful Soup 4.2.0 文档了解一下

剩余的就是对于python数据结构和语法特点的尝试，不得不说，挺简洁的，我用的是PyCharm ，对于这个网站的例子：

代码传送门

猜你喜欢

转载自blog.csdn.net/CoffeeAndIce/article/details/83781080

Python入坑系列 -- 序言

入门系列序言

A序言

序言

压缩感知系列笔记《序言》

java原理系列开篇序言

Java编程系列文章序言

《笨方法学 Python 》_ 序言

[数字图像处理]开坑序言

深度学习AI美颜系列---序言

杨桃的Python进阶讲座1——序言

淘宝客网站开发系列之序言

IT职场人生系列之一：序言及找谁占卜

微服务架构设计实践系列之一：序言

我要翻译《Think Python》 - 001 序言部分

深度学习入门---从配置环境开始--序言python配置

python学习手册笔记——00.序言

博客序言

笔记序言

程序言

数学·序言

语文·序言

英语·序言

脱壳序言

序言页码

Python网络爬虫与数据分析教程系列----00----序言

敏捷开发一千零一问系列之三：序言及解决问题的心法（共振）

敏捷开发一千零一问系列之二：序言及解决问题的心法（无住）

敏捷开发一千零一问系列之一：序言及解决问题的心法（无我）

循序渐进学.Net Core Web Api开发系列【0】：序言与目录

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)