简单理解NLP中文分词 - 代码天地

简单理解NLP中文分词

其他 2020-02-21 11:19:56 阅读次数: 0

什么是中文分词

中文分词指将一个汉字序列切分成一个个单独的词。

中文分词的难题

分词规则（粒度）问题：不同应用对粒度的要求不一样，比如“百度搜索”可以是一个词也可以是两个词
消除歧义问题：比如“小吃店关门了”
未登录词识别问题：比如“hold”住

分词方法分类

中文分词主要分为：基于规则分词、基于概率统计分词。

基于规则分词

原理：按照一定策略将待分析的汉字串与词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

按照扫描方向的不同分为：正向匹配 & 逆向匹配 & 双向匹配

正向最大匹配法(forward maximum matching method, FMM)

参考博客：https://blog.csdn.net/AimeeLee01/article/details/48881543

逆向最大匹配法(backward maximum matching method, BMM)

参考博客：https://blog.csdn.net/lalalawxt/article/details/75477931

双向最大匹配法(Bi-directction Matching method,BM)

参考博客：https://blog.csdn.net/chenlei0630/article/details/40710441

基于概率统计分词

原理：统计分词的主要思想是把每个词看做是由字组成的，如果相连的字在不同文本中出现的次数越多，就证明这段相连的字很有可能就是一个词。

统计语言模型（n-gram）（基于统计）

参考博客：https://blog.csdn.net/App_12062011/article/details/88353423

隐马尔科夫模型（HMM），条件随机场（CRF）等（基于序列标注）

参考博客：https://blog.csdn.net/App_12062011/article/details/88353423

雾行

发布了18 篇原创文章 · 获赞 1 · 访问量 4279

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44151089/article/details/104337937

简单理解NLP中文分词

中文分词简单理解及 jieba的简单运用

nlp中文分词

【NLP】Jieba中文分词

NLP系列-中文分词

NLP中文分词技术

NLP —— 中文分词

NLP_中文分词/jieba分词原理

中文 NLP （2） -- 分词技术

【NLP学习笔记】中文分词

NLP中文分词工具比较

中文分词简单小结

NLP中文分词C++实现

NLP之jieba中文分词官方文档

【数据挖掘】NLP中文分词概述

NLP系列-中文分词（基于统计）

NLP学习记录（七）中文分词

【NLP】【一】中文分词之jieba

NLP基础笔记1——中文分词技术

NLP-中文分词-预处理

NLP学习（二）—中文分词技术

【NLP】中文分词之未登录词

【NLP】中文分词歧义举例

三. CNLP-NLP-中文分词的流程

NLP（十三）中文分词工具的使用尝试

NLP—三种中文分词工具

NLP笔记：中文分词工具简介

NLP学习（二）中文分词技术

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

Stanford NLP 中文分词（segmenter）中文主体识别（NER）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)