NLP_中文分词/jieba分词原理 - 代码天地

NLP_中文分词/jieba分词原理

其他 2018-07-28 16:41:32 阅读次数: 0

【1】基于词典分词方法：

将待分析的汉字串与词典进行匹配。若在词典中找到某个词，则分出一个词。主要有正向最大匹配；逆向最大匹配；最少切分；基于索引树等。
改进：一、将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法；二、改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。三、将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行

【2】基于理解的分词方法：分词的同时进行句法、语义分析

【3】基于统计的分词方法：gram；实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

【4】神经网络/联想回溯法/N-最短路径分词算法

【5】jieba分词原理：

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词（即没有被收录在分词词表中但必须切分出来的词），采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

猜你喜欢

转载自blog.csdn.net/m0_38034312/article/details/81174272

NLP_中文分词/jieba分词原理

【NLP】Jieba中文分词

中文分词原理及jieba分词

NLP_中文分词有向无环图：DAG

NLP之jieba中文分词官方文档

【NLP】【一】中文分词之jieba

NLP之jieba分词原理简析

NLP之jieba分词

NLP-Jieba分词

中文分词之jieba分词

中文分词（一）：jieba分词

中文分词的基本原理以及jieba分词的用法

【jieba分词】中文分词工具jieba

jieba中文分词

jieba中文分词学习

中文分词工具—Jieba

《中文jieba分词》总结

中文分词库-jieba

【python 走进NLP】利用jieba技术中文分词并写入txt

jieba分词的原理

jieba分词原理

Jieba分词原理与解析

模块 jieba结巴分词库中文分词

nlp中文分词

NLP系列-中文分词

NLP中文分词技术

NLP —— 中文分词

优秀的中文分词jieba库

中文分词 jieba和HanLP

jieba中文分词.net版

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)