简单理解NLP中文分词

什么是中文分词

中文分词指将一个汉字序列切分成一个个单独的词。

中文分词的难题

  1. 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词
  2. 消除歧义问题:比如“小吃店关门了”
  3. 未登录词识别问题:比如“hold”住

分词方法分类

中文分词主要分为:基于规则分词、基于概率统计分词。

基于规则分词

原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。

按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配

  • 正向最大匹配法(forward maximum matching method, FMM)

参考博客:https://blog.csdn.net/AimeeLee01/article/details/48881543

  • 逆向最大匹配法(backward maximum matching method, BMM)

参考博客:https://blog.csdn.net/lalalawxt/article/details/75477931

  • 双向最大匹配法(Bi-directction Matching method,BM)

参考博客:https://blog.csdn.net/chenlei0630/article/details/40710441

基于概率统计分词

原理:统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。

 

  • 统计语言模型(n-gram)(基于统计)

参考博客:https://blog.csdn.net/App_12062011/article/details/88353423

  • 隐马尔科夫模型(HMM),条件随机场(CRF)等(基于序列标注)

参考博客:https://blog.csdn.net/App_12062011/article/details/88353423

 

 


 

发布了18 篇原创文章 · 获赞 1 · 访问量 4279

猜你喜欢

转载自blog.csdn.net/weixin_44151089/article/details/104337937