名称匹配-编辑距离 - 代码天地

名称匹配-编辑距离

其他 2018-10-19 16:21:40 阅读次数: 0

背景：

此次项目其中一个任务为公司名称匹配，因此需要用到编辑距离。名称匹配包括中英文，所以针对中英文有不同的计算方法：首先观察中英文名称特征，国内公司一般以XX（省份|市|区|县）XX(公司标志名称)XX（公司性质：科技|技术发展）有限公司|股份有限公司|有限责任公司|分公司，对应的英文也是如此eg,beijing XX technology co.,ltd.

ratio：一般用于长字符匹配

jaro_winker：用于短字符匹配，会给第一个字符相同的数据赋予较高的值

实施：

中文部分：

1.用正则表达式去除有限公司|股份有限公司|有限责任公司|分公司（re.sub(r'有限公司|股份有限公司|有限责任公司|分公司','',string)）同时也可以建立地名词典去除前面地点，防止有的公司省略地点名,定义函数get_sub()实现此模块

2.爬取企业信息曾用名辅助匹配

condition[i==j,get_sub(i)==get_sub(j),ratio(get_sub(i),get_sub(j))>0.85]

此处采坑：由于查找字典数据较大，用any()条件判断会计算所有的condition才会执行将匹配到的结果添加进字典，故需要定义一个函数，只要满足一个条件即跳转，按照计算量的大小写入condition中进行判断（最后完成后才知道用哈希表匹配更快）

英文部分：

由于中国公司的英文名相同字符较多eg.beijing XX technology coltd 这种模式下可以是很多家公司，所以在匹配全字相等后（忽略特殊符号，忽略大小写，简写egcompany limited -co.,ltd croporation-crop incroporationed--INC）我想了一个方法就是以空格切分，除去相同单词计算不同字符的编辑距离，这样可以找到因时态单复数影响匹配不到的记录

猜你喜欢

转载自www.cnblogs.com/RQH-nlp/p/9817000.html

名称匹配-编辑距离

编辑距离

编辑距离及编辑距离算法

编辑距离—模板

编辑距离问题

72. 编辑距离

LeetCode（72）：编辑距离

Lintcode-编辑距离

最短编辑距离

最优编辑距离

编辑距离（Edit Distance）

编辑距离 Edit Distance

[LintCode] 编辑距离

【DP】编辑距离

【算法】树的编辑距离

编辑距离Edit Distance

编辑距离算法杂烩

求编辑距离

最优编辑距离问题

LeetCode编辑距离

编辑距离（动态规划）

编辑距离，BK树

leetcode 72:编辑距离

相似算法-编辑距离

编辑距离DP算法

Levenshtein distance（编辑距离）

编辑距离【动态规划】

【洛谷】编辑距离

动态规划-编辑距离

python编辑距离

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)