本文链接： https://blog.csdn.net/qq_44205272/article/details/102526812

数据挖掘

数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等

训练集

作用：估计模型

学习样本数据集，通过匹配一些参数来建立一个分类器。建立一种分类的方式，主要是用来训练模型的

验证集

作用：确定网络结构或者控制模型复杂程度的参数

对学习出来的模型，调整分类器的参数，如在神经网络中选择隐藏单元数。验证集还用来确定网络结构或者控制模型复杂程度的参数

测试集

作用：检验最终选择最优的模型的性能如何

主要是测试训练好的模型的分辨能力（识别率等）

监督学习

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象（通常为矢量）和一个期望的输出值（也称为监督信号）组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成

有标签，一般用来分类

无监督学习

在机器学习，无监督学习的问题是，在未加标签的数据中，试图找到隐藏的结构。因为提供给学习者的实例是未标记的，因此没有错误或报酬信号来评估潜在的解决方案。这区别于监督学习和强化学习无监督学习

无标签，一般用来聚类

半监督学习

半监督学习是监督学习和无监督学习相结合的一种学习方式。主要是用来解决少量带标签的数据和大量没有标签的数据进行训练和分类的问题

机器学习之基本概念

数据挖掘

训练集

验证集

测试集

监督学习

无监督学习

半监督学习

猜你喜欢