《机器学习:算法原理和编程实践》2:中文文本分类

1、文本挖掘与文本分类的概念

     简言之,文本挖掘就是从非结构化的文本中寻找知识的过程。其7个主要领域如下:

  • 搜索和信息检索(IR):存储和文本文档的检索,包括搜索引擎和关键字搜索。
  • 文本聚类:使用聚类方法,对词汇、片段、段落或文件进行分组和归类。
  • 文本分类:对片段、段落或文件进行分组和归类,在使用数据挖掘分类方法的基础上,经过训练地标记示例模型。
  • Web挖掘:在互联网上进行数据和文本挖掘,并特别关注网络的规模和相互联系。
  • 信息抽取(IE):从非结构化文本中识别与提取有关的事实和关系;从非结构话或半结构化文本中抽取出结构化数据的过程。
  • 自然语言处理(NLP):将语言作为一种有意义、有规则的符号系统,在底层解析和理解语言的任务;目前的技术主要从语法、语义的角度发现语言最本质的结构和所表达的意义。
  • 概念提取:把单词和短语按语义分成意义相似的组。

2、文本分类项目

      中文语言的文本分类技术与流程:

  1. 预处理:去除文本的噪声信息,例如HTML标签、检测句子边界等。
  2. 文本分词:使用中文分词器为文本分词,并去除停用词。最终完全解决中文分词的算法是基于概率图模型的条件随机场(CRF)。目前,文本的结构化表示简单分为四大类:词向量空间模型、主题模型、依存句法的树表示、RDF的图表示,它们都是以分词为基础的。使用结巴分词
  3. 构建词向量空间:统计文本词频,生成文本的词向量空间。人工输入的停用词(常用词、语气助词等)
  4. 权重策略---TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。
  5. 分类器:使用算法训练分类器。
  6. 评价分类结果:分类器的测试结果分析。

    向量空间模型把文本表示一个向量,该向量的每个特征表示为文本中出现的词。它将文本中的词和模式串转换位数字,而整个文本集也都转换为维度相等的词向量矩阵。

    TF-IDF(词频逆文档频率):其含义是如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。对词计数进行归一化,将词频信息变为概率分布,这就是文档的TF信息。如何体现生成的词袋中的词频信息呢?由于词袋收集了所有文档中的词,这些词的词频是针对所有文档的词频,因此,词袋的统计基数是文档数。所以IDF权重为log(D/j) ,包含词语的文件数目

   分类器:常用的文本分类方法有kNN最近邻算法、朴素贝叶斯算法和SVM。一般而言,kNN最近邻算法的原理最简单,分类精度尚可,但是速度最慢;朴素贝叶斯算法对于短文本分类的效果最好,精度很高;支持向量机算法的优势是支持线性不可分的情况,精度上取中。



kNN:如果一个样本在特征空间中的k个最邻近(最相似)的样本中的大多数都属于某个类别,则该样本也属于这个类别。


   分类结果评估:召回率(查全率),准确率(查准率),F-Score(常用的评价标准)



猜你喜欢

转载自blog.csdn.net/qfire/article/details/80950235