文本分类概述

好久没有更新博客了.......刚开始开通时激情满满,励志每周都坚持,结果中间停了两个月,好可惜。事情太多,分身乏术,想想还是自己花在学习上的时间变少了,该好好反省一下。

最近在看这本书《机器学习实践指南》案例应用解析 ,第二版,麦好著。从学校图书馆借来的,没有看完,不敢妄议,一些好的概念和代码也从上面借鉴一些。

文章分三块,1).文本分类概述 .  2.)余弦相似度概述及分类   3.)相似度计算概述。后续会将相关代码接上.......

1.文本分类概述

           随着互联网的高速发展和大数据时代的到来,文本分类等文本挖掘技术应用于越来越多的领域。互联网能够方便,准确地记录用户数据,产生了大量的半结构化,非结构化的文本数据,这也使互联网成为大数据案例分析应用最广泛的领域之一。

分类技术是数据挖掘中非常重要的分支。分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,使用这种类的描述可对未来的测试数据进行分类。

文本分类大致分为几个要素:文本向量模型表示,文本特征选择和文本训练分类器。目前比较流行的分类方法有SVM,改进余弦相似度,贝叶斯方法,神经网络,k2最近邻方法,遗传算法,粗糙集等。

文本分类算法通常包括文本预处理(中文分词,去除停用词),文本特征提取,样本特征学习及算法对未知样本的预测过程等。

2.余弦相似度

基于余弦相似度的文本分类算法实现的基本过程: 
首先对样本文本进行分词,接着将垃圾词剔除,然后根据剔除后的词条
把样本文本中的所有词映射到n维空间的一个向量上,并计算未知文本特征组形成的向量与各类别特征组向量之间夹角的
余弦值,最后通过比较余弦值的大小判断最接近的分类。

分类:

(a)中文分词

中文分词指的是将一个汉字序列切分成一个个单独的词。中文分词是文本挖掘的基础,对于一段中文文本,中文分词是文本自动识别的前提。

中文分词的困难就是遇到歧义,主要的歧义有两种:交集型歧义和组合型歧义

扫描二维码关注公众号,回复: 11923069 查看本文章

(b)停用词清理

停用词又称垃圾词。完成自然语言理解与文本分类任务时,都需要预处理文本,自动过滤掉某些不能表征意义的词,字或符号,这些字或词被称为停用词。

3.相似度概述

(a)文本相似度分析
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。

(b)相似度计算的步骤:

1.读取文档
2.对要计算的文档进行分析
3.对文档进行整理成指定格式,方便后续的计算
4.计算出词语的频率
5.【可选】,对频率低的词语进行过滤
6.通过语料库建立词典
7.加载要对比的文档
8.将要对比的文档通过doc2bow转化为稀疏向量
9.对稀疏向量进行进一步处理,得到新语料库
10.对新语料库通过tfidfmodel进行处理,得到TF-IDF
11.通过token2id得到特征数
12.稀疏矩阵相似度,从而建立索引
13.得到最终相似度的结果 

猜你喜欢

转载自blog.csdn.net/qq_41127332/article/details/81670609