hanlp中文智能分词自动识别文字提取实例 - 代码天地

hanlp中文智能分词自动识别文字提取实例

其他 2018-12-03 10:00:48 阅读次数: 0

需求：客户给销售员自己的个人信息，销售帮助客户下单，此过程需要销售人员手动复制粘贴收获地址，电话，姓名等等，一个智能的分词系统可以让销售人员一键识别以上各种信息

经过调研，找到了一下开源项目

1、word 分词器

2、ansj 分词器

3、mmseg4j 分词器

4、ik-analyzer 分词器

5、jcseg 分词器

6、fudannlp 分词器

7、smartcn 分词器

8、jieba 分词器

9、stanford 分词器

10、hanlp 分词器

最后选择了hanlp，步骤官网都有，下面演示智能匹配地址

1 List<Term> list = HanLP.newSegment().seg("汤姆江西省南昌市红谷滩新区111号电话12023232323");

2 System.out.println(list);

输出

1 [汤姆/nrf, 江西省/ns, 南昌市/ns, 红谷滩/nz, 新区/n, 111/m, 号/q, 电话/n, 12023232323/m]

大公告成，不过前提必须下载那个600多M的data包并导入，才可以识别地址，否则只是做了初步的识别

附上完整代码

1 String str = "汤姆江西省南昌市红谷滩新区111号 12023232323";

2 String address = "";

3 String phone = "";

4 String name = "";

5 List<Term> terms = NLPTokenizer.segment(str);

6 System.out.println(terms);

7 for (Term term : terms) {

8 if (term.nature.startsWith("nr")){

9 //nr代表人名

10 name = term.word;

11 System.out.println("name: " + term.word);

12 }else if (term.nature.startsWith("m") && term.word.length() == 11){

13 //m代表数字

14 phone = term.word;

15 System.out.println("电话: " + term.word);

16 }

17 }

18 //由于地址包含了数字，解析的时候数字成为单独的个体，与实际不符，所以通过差集求出地址

19 address = str.replace(phone, "").replace(name, "").trim();

20 System.out.println("address: " + address);

运行结果

1 name: 汤姆

2 电话: 12023232323

3 address: 江西省南昌市红谷滩新区111号

---------------------

作者：qq37755661

猜你喜欢

转载自my.oschina.net/u/3793864/blog/2963907

hanlp中文智能分词自动识别文字提取实例

hanlp用法中文智能分词自动识别文字提取

hanlp中文分词、提取摘要关键字、语句分析、智能推荐

中文自动分词---HanLP+jieba

人工智能表格票据识别-要素信息自动识别提取

如何自动识别文字并提取？这三个方法教你搞定识别文字

HanLP笔记 - 中文分词

HanLP中文分词——字典分词

增值税发票识别，智能自动识别

中文分词 jieba和HanLP

Java中文分词hanlp使用

中文点选验证码之自动识别

基于HanLP分词的命名实体提取

HanLP分词命名实体提取详解

3.4 HanLP分词命名实体提取

java分词技术（自动提取关键词，段落大意）hanlp

Hanlp在java中文分词中的使用介绍

Hanlp源码解析之中文分词算法

中文分词算法工具hanlp源码解析

全文检索Solr集成HanLP中文分词

Elasticsearch：hanlp 中文分词器

elasticsearch 中文分词（elasticsearch-analysis-hanlp）

修改whoosh支持hanlp中文分词

Hanlp分词实例：Java实现TFIDF算法

自然语言处理之hanlp，Python调用与构建，分词、关键词提取、命名主体识别

垃圾文本自动识别

分区自动识别判断

分词工具Hanlp基于感知机的中文分词框架

Elasticsearch应用Hanlp中文分词和Pinyin 拼音分词

Python实现下载小说，图片章节自动识别转文字

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)