自然语言处理期末复习（2）中文分词 - 代码天地

自然语言处理期末复习（2）中文分词

企业开发 2018-06-19 05:14:35 阅读次数: 2

1.汉语分词：通过计算机程序把组成汉语文本的字串自动转换

为词串的过程被称为自动切分

2.汉语切分的原因：（1）语音的合成（2）信息检索（3）词语计量分析

3.汉语分词基本方法：（1）基于词表的方法（2）字序列标记方法

4.最大匹配法：

（1）正向最大匹配法(MM) 从左向右匹配词表

（2）逆向最大匹配法(RMM) 从右向左匹配词表

5.歧义的类型

（1）交集型歧义：AJ/B、A/JB

交集型歧义字段中交集字段的个数，称作链长

（2）组合型歧义: AB、A/B

（3）混合型歧义: 同时包含交集型歧义和组合型歧义的歧义字段

6.伪歧义: 歧义字段单独拿出来看有歧义，但在(所有)真实语境中只有一种切分方式可接受。

真歧义：歧义字段在不同语境中确有多种切分方式,(1) 多种切分形式均匀分布 12% (2) 一种切分形式占优 88%

7．歧义的发现：

双向最大匹配(MM+RMM)

– 同时使用MM法和RMM法

– 如果MM法和RMM法给出同样的结果，认为没

有歧义，若不同，则认为出现了歧义

发现组合型歧义

– MM+逆向最小匹配法

发现所有切分歧义

– 全切分算法

8歧义消解

基于规则的歧义消解。

基于统计的歧义消解：在词图上搜寻统计意义上的最佳路径

9.中文人名识别：计算一个可能的人名字串的概率，若其概率大于某个阈值，则判别为人名。

猜你喜欢

转载自blog.csdn.net/Kangyucheng/article/details/80720791

自然语言处理期末复习（2）中文分词

自然语言处理——中文分词原理及分词工具介绍

【Python自然语言处理】中文分词技术——规则分词

中文自然语言处理--HanLP 中文分词

中文自然语言处理--jieba 中文分词

自然语言处理期末复习（1）n元模型

自然语言处理期末复习（6）话题模型

自然语言处理复习笔记 2

hanlp中文自然语言处理的几种分词方法

hanlp中文自然语言处理分词方法介绍

Python自然语言处理实战（3）：中文分词技术

自然语言处理之中文分词算法

【自然语言处理】详说中文自动分词

自然语言处理入门----中文分词原理

Python 自然语言处理笔记（二）—— 中文分词

自然语言处理-01中文分词技术

自然语言处理之中文分词工具汇总

自然语言处理之维特比算法实现中文分词

自然语言处理2 -- jieba分词用法及原理

自然语言处理系列-2.分词

自然语言处理-2-分词（Word Segmentation）

《自然语言处理》复习

自然语言处理入门（1）——中文分词原理及分词工具介绍

自然语言处理之中文分词器－jieba分词器详解及python实战

自然语言处理入门（4）——中文分词原理及分词工具介绍

【Python自然语言处理】中文分词技术——统计分词

自然语言处理之jieba分词

自然语言处理之_SentencePiece分词

自然语言处理1 -- 分词

自然语言处理-结巴分词实践

今日推荐

周排行

解析ReentrantLock实现原理

面试之非技术

第三周助教点评

《阅读-拖延心理学》

第二章使用 kind 一分钟搭建 k8s 集群

2018福大软工实践第五次作业

Day2.基本条件语句

抢占物联网入口，“腾讯云小微”将和AliGenie互怼

IO流的输入输出

vSphere 7.0初体验

每日归档

更多

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)