2.中文文本分类

　　这这一篇博客中，将系统介绍中文文本分类的流程和相关算法。先从文本挖掘的大背景开始，以文本分类算法为中心，介绍中文文本分类项目的流程以及相关知识，知识点设计中文分词，向量空间模型，TF-IDF方法，几个典型的文本分类算法和评价指标等。

　　本篇主要有：

　　朴素的贝叶斯算法
　　KNN最近邻算法。

2.1 文本挖掘与文本分类的概念

　　简单来说，文本挖掘就是从已知的大量文本数据中提取一些未知的最终可能用过的知识的过程，也就是从非结构化的文本中寻找知识的过程。文本挖掘主要领域有：

搜索和信息检索：存储和文本文档的检索，包括搜索引擎和关键字搜索。
文本聚类：使用聚类方法，对词汇，片段，段落或者文件进行分组和归类。
文本分类：对片段，段落或文件进行分组和归类，在使用数据挖掘分类方法的基础上，经过训练地标记示例模型。
Web挖掘：在互联网上进行数据和文本的挖掘，并特别关注网络的规模和相互联系。
信息抽取：从非结构化文本中识别与提取有关的事实和关系；从非结构化或半结构化文本中抽取出结构化数据的过程。
自然语言处理：将言语作为一种有意义，有规则的系统符号，在底层解析和理解语言的任务。
概念提取：把单词和短语按语义分成意义相似的组。

　　在分析机器学习的数据源中最常见的知识发现主题是把数据对象或者是事件转换为预定的类别，再根据类别进行专门的处理，这是分类系统的基本任务。想要实现这个任务首先需要给出一组类别，然后根据这些类别手机相应的文本集合，构成训练数据集，训练结合中既包括分好类的文本文件，也包括类别信息。在如今，自动化的文本分类呗广泛地应用于文本检索，垃圾邮件过滤，网页分层目录，自动生成元数据，题材检测以及许多其他的应用领域。

　　在目前主要有两种文本分类方法，一种是基于模式系统的，还有一种是基于分类模型。模式系统也叫专家系统，是将知识一规则表达式的形式进行分类。分类模型也叫机器学习，是一个广义的归纳过程，采用一组预分类的例子，通过训练建立分类。目前由于文件数量以指数的速度增加，潮流趋势正在转向机器学习，一种基于自动分类的技术。

2.1 文本挖掘与文本分类的概念

猜你喜欢