最近一篇《我们分析了67万个村名,找到了中国地名的秘密》特别火,我来探究一下这个村名是怎么获得的
让我们看一下原文
数读菌利用爬虫爬取了国家统计局2017年最新版城乡区划代码中的67万余个村名。
在对其进行了匹配分析后,发现高度的重复是中国村一级行政区名称的最大特色之一。
我们去国家统计局网站上找一下这个地址
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/index.html
一级一级点开是很有规律的,点到最后,就出现村了
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/11/01/01/110101001.html
这是典型的多级网址的爬取的方式,也就是说,我们最先是要把一级一级的链接爬下来,一直到最后一级时,再爬取内容
因为村名实在是太多,而方法又是很类似,我就以街道办事处为例实验一下,哈哈
实验结果
0级网址1个,1级网址31个(除去港澳台地区),2级网址344个,3级网址3083个,4级网址43447
有了网址剩下的事就简单了