爬虫采集全国的街道办事处代码和名称的思路(2017年最新版城乡区划代码)

最近一篇《我们分析了67万个村名,找到了中国地名的秘密》特别火,我来探究一下这个村名是怎么获得的

让我们看一下原文

数读菌利用爬虫爬取了国家统计局2017年最新版城乡区划代码中的67万余个村名。
在对其进行了匹配分析后,发现高度的重复是中国村一级行政区名称的最大特色之一。

我们去国家统计局网站上找一下这个地址

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/index.html

一级一级点开是很有规律的,点到最后,就出现村了

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/11/01/01/110101001.html

这是典型的多级网址的爬取的方式,也就是说,我们最先是要把一级一级的链接爬下来,一直到最后一级时,再爬取内容

因为村名实在是太多,而方法又是很类似,我就以街道办事处为例实验一下,哈哈

实验结果

0级网址1个,1级网址31个(除去港澳台地区),2级网址344个,3级网址3083个,4级网址43447

有了网址剩下的事就简单了

猜你喜欢

转载自blog.csdn.net/qq_912917507/article/details/85080482