N-gram mode笔记l(分词算法)

N-gram model(在模糊匹配中的应用)

最常用的是bigram, trigram,高于4元的用的不多,训练需要更庞大的语料,而且数据稀疏严重,时间复杂度高,精度提升却不多

 

我的理解:

n-gram 分词就是把字符串按照N,切分成多个子字符串,每次移动一位。

 

非重复的n-gram分词为基础又可以得到N-gram距离:两个字符串的n-gram集合 - 2*(两个字符串的子字符串重合的个数)

 

N-gram model用来评估语句是否合理

 

更多:

Hidden markov model(HMM)

 

Maximum entropy model

猜你喜欢

转载自blog.csdn.net/henghen9943/article/details/81159208