nlp底层技术列举

其实目前除了之前博客写到的一些关于自然语言处理用到的知识点之外,很多其他nlp技术只是会用但是不了解原理,先整体分个类,之后再仔细分析吧。

上图是https://www.sohu.com/a/138692749_657157 阿里的nlp业务框架。我主要是从第二层:nlp基础算法来总结原理。其中主题模型、word2vec都已经总结过了,之后主要针对词法分析部分算法进行总结(目前先列出了我用到的工具,之后补充算法原理2019.3.1 下面这个博客之后可以参考学习https://blog.csdn.net/u013510838/article/details/81907121)。

1.分词

大部分都用的是jieba分词,效果还是不错的。

2.实体识别

如果只是想用工具做到简单的实体识别,我用的是Stanford的corenlp工具,这个工具可以通过python处理汉字。其他实体识别工具不支持python。但是我使用后发现不仅效果不太好,速度还很慢,一句话要识别1分钟左右,所以如果有时间要求、准确率要求,这个工具还是不太友好的。

3.词性标注

这个为了简便我用到的也是jieba在分词的同时对词性进行标注,不过还有nlpnet工具可以做到,这个工具可能更加专业些。

猜你喜欢

转载自www.cnblogs.com/kjkj/p/10456793.html