好久没有更新博客了.......刚开始开通时激情满满，励志每周都坚持，结果中间停了两个月，好可惜。事情太多，分身乏术,想想还是自己花在学习上的时间变少了，该好好反省一下。

最近在看这本书《机器学习实践指南》案例应用解析，第二版，麦好著。从学校图书馆借来的，没有看完，不敢妄议，一些好的概念和代码也从上面借鉴一些。

文章分三块，1).文本分类概述 . 2.)余弦相似度概述及分类 3.）相似度计算概述。后续会将相关代码接上.......

1.文本分类概述

随着互联网的高速发展和大数据时代的到来，文本分类等文本挖掘技术应用于越来越多的领域。互联网能够方便，准确地记录用户数据，产生了大量的半结构化，非结构化的文本数据，这也使互联网成为大数据案例分析应用最广泛的领域之一。

分类技术是数据挖掘中非常重要的分支。分类就是根据数据集的特点找出类别的概念描述，这个概念描述代表了这类数据的整体信息，也就是该类的内涵描述，使用这种类的描述可对未来的测试数据进行分类。

文本分类大致分为几个要素：文本向量模型表示，文本特征选择和文本训练分类器。目前比较流行的分类方法有SVM，改进余弦相似度，贝叶斯方法，神经网络，k2最近邻方法，遗传算法，粗糙集等。

文本分类算法通常包括文本预处理（中文分词，去除停用词),文本特征提取，样本特征学习及算法对未知样本的预测过程等。

2.余弦相似度

基于余弦相似度的文本分类算法实现的基本过程：
首先对样本文本进行分词，接着将垃圾词剔除，然后根据剔除后的词条
把样本文本中的所有词映射到n维空间的一个向量上，并计算未知文本特征组形成的向量与各类别特征组向量之间夹角的
余弦值，最后通过比较余弦值的大小判断最接近的分类。

分类：

(a)中文分词

中文分词指的是将一个汉字序列切分成一个个单独的词。中文分词是文本挖掘的基础，对于一段中文文本，中文分词是文本自动识别的前提。

中文分词的困难就是遇到歧义，主要的歧义有两种：交集型歧义和组合型歧义

扫描二维码关注公众号，回复： 11923069 查看本文章

(b)停用词清理

停用词又称垃圾词。完成自然语言理解与文本分类任务时，都需要预处理文本，自动过滤掉某些不能表征意义的词，字或符号，这些字或词被称为停用词。

3.相似度概述

（a）文本相似度分析
TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。
TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。

(b)相似度计算的步骤：

1.读取文档
2.对要计算的文档进行分析
3.对文档进行整理成指定格式，方便后续的计算
4.计算出词语的频率
5.【可选】，对频率低的词语进行过滤
6.通过语料库建立词典
7.加载要对比的文档
8.将要对比的文档通过doc2bow转化为稀疏向量
9.对稀疏向量进行进一步处理，得到新语料库
10.对新语料库通过tfidfmodel进行处理，得到TF-IDF
11.通过token2id得到特征数
12.稀疏矩阵相似度，从而建立索引
13.得到最终相似度的结果

文本分类概述

1.文本分类概述

2.余弦相似度

分类：

3.相似度概述

猜你喜欢