数据挖掘学习2--数据和数据挖掘工具

数据挖掘学习2–数据和数据挖掘工具

上次笔记我记录了什么是数据挖掘和数据挖掘的流程，那么这次的笔记要记录一下数据挖掘工具。但是在学习数据挖掘工具之前，还有几个概念必须要理解。
1.数据，属性
这里有三个概念：数据对象，数据属性和数据集
什么是数据对象？样本、实例、数据点或对象。
如果以数据库为例：
数据对象就是以数据元组的形式存在于数据库中的，在数据库中以行的形式进行存储
什么是数据属性？属性是表示数据对象的特征的。
那么在数据库中就是表中的一列
什么是数据集？数据集是由数据对象组成的。
注意：
这里的属性，有不同的名称。
“维”，一般用在数据仓库中。
“特征”，一般用在机器学习中。
“变量”，一般用在统计学中。

2.属性的分类：

分类	描述
定量	给出类别，不给出实际的大小或者数值
定性	用整数或者实数表示

按照定量来划分，它包含：
标称属性
二元属性
序数属性
按照定性来划分，它包含：
区间标度属性
比例标度属性

每种属性的详解如下：
标称属性：
特点：
标称属性的值是一些符号或事物的名称。
每个值代表某种类别、编码、状态，因此标称属性又被看做是分类的（categorical）。
标称属性的值不具有有意义的序，而且不是定量的。（也就是说，给定一个对象集，找出这种属性的均值没有意义）。
这些值不必具有有意义的序，在计算机科学中，这些值也被看做是枚举的（enumeration）。

二元属性：
特点：
二元属性是一种标称属性，只有两个状态：0 或 1，其中 0 通常表示该属性不出现，1 表示出现。
二元属性又称布尔属性，如果两种状态对应的是 true 和 false。
二元属性可分为两类：
对称的二元属性：如果两种状态具有同等价值，并且携带相同权重，如表示性别，则 0 和 1 分别表示男性或女性没有影响。
非对称的二元属性：两种状态的结果不是同等重要的，如 HIV 患者和不是 HIV 患者，为了方便计，将用 1 对最重要的结果（通常是稀有的）编码（如，HIV 患者），而另一个用 0 编码。

序数属性：
特点：
属性对应的可能的值之间具有有意义的序或秩评定（ranking），但是相继值之间的差是未知的。（也就是对应的值有先后次序）
有意义的序，是有先后顺序的，比如xs/s/m/l/xl

区间标度属性：–差值有一定含义
用相等的单位尺度度量。
区间属性的值。
例：temperature（温度）属性，一般表示：10℃~15℃。

比例标度属性：–比值有一定含义
具有固定零点的数值属性。
比例标度（ratio-scaled）属性
（也就是该种属性中会有固有的为 0 的值）。
注意:我们是不会说今天的温度是昨天的1.5倍的

3.数据集的分类：
训练集：用来训练模型—占比60%
验证集/测试集：用来评估模型和预测数据，学习得到模型之后，去衡量模型好坏—占比20%
交叉验证集：衡量训练过程中模型的好坏–占比20%–但是不一定会有，可能会弱化掉

4.数据集的特征：
维度：一组数据的组织形式（一维、二维或多维）。
稀疏性：
如果数值为零的元素远大于非零元素的个数，且非零元素分布没有规律时，这样的矩阵被称作稀疏矩阵；如果非零元素数目占据绝大多数时，这样的矩阵被称作稠密矩阵。

分辨率：
空间分辨率越高，图像质量越好，空间分辨率越低，图像质量越差

5.度量：
通过对小的集合的特征捕获可能很大的数据集的各种特征
度量的分类分为两类：中心趋势和数据散布
中心趋势：
在这里插入图片描述
数据散布：

我们常说的数据挖掘的工具有哪些？
1.MLS：机器学习服务
它的特点如下：
易用：通过可视化的拖拽式工作流，实现数据建模、分析、预测、可视化。
开放：交互式Notebook，支持多种开源建模语言（Python等）。
丰富：预置丰富的机器学习算法，满足从数据导入和处理，到模型训练和评估、导出，覆盖预测分析端到端业务。
一站式：提供特征工程、机器学习算法、建模、预测、模型全生命周期管理的机器学习一站式机器学习应用

2.Python：
这是我们常用的工具之一，但是由于内容过多，我又新写了一篇笔记来详细记录python的内容
链接如下：python基础

3.Spark MLlib：
在这里插入图片描述
便于使用:可用于Java，Scala， Python和R。
性能:高质量算法，比MapReduce快100倍。
到处运行:Spark运行在Hadoop，Apache Mesos，Kubernetes，独立或云端，针对不同的数据源。

4.Rapid Miner：
在这里插入图片描述
可以轻松地为预测建模准备数据。
交互式地探索数据以评估其健康，完整性和质量。
快速修复缺失值和异常值等常见问题。
将多个数据集混合在一起，并使用简单的表达式编辑器创建新列。

5.IBM SPSS Modeler：
在这里插入图片描述
加快数据研究员执行操作任务的速度，从而帮助企业加速实现价值并获得预期的成果。
依靠 IBM 的产品和服务进行数据准备和发现、预测分析、模型管理和部署以及机器学习。

6.Oracle Data Mining：
提供了强大的数据挖掘算法，使数据分析人员能够进行预测并利用其Oracle数据进行投资。
在Oracle数据库中构建和应用预测模型，以帮助您预测客户行为，定位最佳客户，开发客户档案，识别交叉销售机会并检测异常和潜在欺诈。

TKE_manman

发布了30 篇原创文章 · 获赞 19 · 访问量 2219

私信关注

数据挖掘学习2--数据和数据挖掘工具

数据挖掘学习2–数据和数据挖掘工具

猜你喜欢