文本处理总结

理论基础

【算法与数学】阮一峰的网络日志

LDA原理介绍

【通俗易懂,原理】LDA-math-汇总 LDA数学八卦

【百度百科】LDA (LDA文档主题生成模型)
主题模型-LDA浅析
【4种】如何确定LDA的topic个数

LDA评价

LDA主题模型评估方法–Perplexity
LDA结果的实际意义: 取一些Topic下的前几名词,然后与所在方向相结合进行分析,确定其合理性。

文本预处理

总体流程

【科学网】文本分类的数据预处理相关知识介绍
【CSDN】文本挖掘预处理的流程总结

字符串处理

正则表达式 - 教程
python 正则表达式

相关的工具

自然语言工具

Python 自然语言处理(NLP)工具库汇总
langdetect下载(工具,判断语言)
【stackoverflow】NLTK and language detection
【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别
词形还原工具对比

NLTK工具

词干提取(stemming)和词形还原(lemmatization)
词形还原工具对比

Gensim

【CSDN】Gensim官方介绍翻译
Gensim 官方Tutorial
Gensim 官方API 文档
pythonNLP-Gensim安装
Python自然语言处理(一)–利用NLTK自带方法完成NLP基本任务
【我爱自然语言处理】如何计算两个文档的相似度(一)
【我爱自然语言处理】如何计算两个文档的相似度(二)
完整示例】【我爱自然语言处理】如何计算两个文档的相似度(三)
gensim使用方法以及例子(对语料,字典解释的不错)

相似性

语义相似度算法简介
向量空间模型(VSM)算法 一种简单的文本相似度算法

代码示例

pythonNLP-文本相似度计算实验汇总
基于gensim的文本主题模型(LDA)分析

情感分析

理论

【简书】情感分析介绍 (通俗易懂)

工具 - TextBlob

【官方文档】TextBlob快速入门手册
【官方源码】TextBlob 的 Github源码

猜你喜欢

转载自blog.csdn.net/TheSnowBoy_2/article/details/55271718