基于国家统计局城乡规划数据的地名提取（2） - 代码天地

基于国家统计局城乡规划数据的地名提取（2）

其他 2020-01-20 10:32:45 阅读次数: 0

在上一篇中我们采集了国家统计局2018年的全国地名数据。接下来，我们将会用这个数据进行匹配，提取相关的地级市与省份。

在这里插入图片描述
之前我们采集的全国地名数据分为了两种数据结构分别保存，在这里我们使用第一种结构的数据。

接下来我们要写一个进行提取的函数。输入是公司名称的字符串，公司所属省份，与省份对应相应的地名数据。
在这里插入图片描述
接下来就进入重点了，开始对前两个词的地名数据进行匹配。首先对第一个词进行匹配。

在这里插入图片描述
若第一个词未返回数据对第二个词进行匹配

在这里插入图片描述

到此我们的地名提取基本上结束了。我们随便拿两个数据测试下

首先加载数据，这个就是我们之间采集的地名数据

province_data = open('./China_place_data.json', encoding="utf-8").read()
province_data = json.loads(procince_data)

然后提取所属地级市

place = extract_place('韩城市城市投资(集团)有限公司', procince_data['陕西省'], '陕西')
"维吾尔自治区", ""))

在这里插入图片描述

可以看到最终提取到“韩城市城市投资(集团)有限公司”所属的地级市为渭南市。

github:https://github.com/sph116/Company_Place_name_extraction

基于国家统计局的地名提取项目就到此结束啦，后续我还会继续发布一些机器学习，爬虫相关的实战项目，欢迎交流哦！

在这里插入图片描述

欢迎扫码关注：

在这里插入图片描述

发布了7 篇原创文章 · 获赞 4 · 访问量 167

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43548498/article/details/103769401

基于国家统计局城乡规划数据的地名提取（2）

基于国家统计局城乡规划数据的地名提取（1）

python3爬取国家统计局，区域城乡代码

国家统计局统计用区划代码和城乡划分代码---爬虫、详细分析

国家统计局全国统计用区划代码和城乡划分代码Python爬虫样例

利用Python爬虫，只需要会requests + re 即可抓取中国国家统计局70w+城乡数据信息

基于上篇博客，利用Re + Requests爬取国家统计局70w城乡数据信息！改进方案：深度优化递归函数+threading +Queue多线程提高爬取效率！

国家统计局爬虫样例

使用JSOUP爬取国家统计局的地理位置数据

国家统计局 2019年省市区数据（自取）

Python爬取——国家统计局省份加城市并写入数据库

国家统计局,(省/市/县/区/街道)五级联动数据

Python爬虫练习一：爬取国家统计局 2016年统计用区划代码和城乡划分代码

最新国家行政区划代码,来自国家统计局2018年底最新数据

最新教育数据分享及数据查询方法（数据来源：世界银行、国家统计局）

全国关于省市区/县的行政区划数据-数据来源国家统计局

JAVA爬虫爬取国家统计局行政区划数据（2021年最新数据）

Python爬取国家统计局官网最新全国所有城市县镇数据

python数据分析项目——【国家统计局】学历分布/CPI/金融行业学历分布

国家统计局：去年就业人员平均工资49969元弊

国家统计局回应消费降级：消费结构总体是升级的

史上最全国家统计局划分代码爬取

java爬取国家统计局省市县及编码

全国省市区县 MySQL 数据库含行政区划编码名称父级行政区划编码基于国家统计局2017年3月发布数据

分别利用seaborn和matplotlib绘制两组数据（国家统计局居民消费指数和鸢尾花数据集）的图表

用goquery从国家统计局拉取最新省市区3级行政区划代码，生成SQL文件导入数据库

Android 实现三级联动国家统计局全国省市县行政区域最新划分数据库

用python3的pyspider爬取国家统计局的行政区域（只到乡镇级）

2020 最新 Python3.8 爬国家统计局区域、省、市、区，街道乡镇代码

零代码获取国家统计局省市县乡村5级行政区代码

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)