数据挖掘学习2--数据和数据挖掘工具

数据挖掘学习2–数据和数据挖掘工具

上次笔记我记录了什么是数据挖掘和数据挖掘的流程,那么这次的笔记要记录一下数据挖掘工具。但是在学习数据挖掘工具之前,还有几个概念必须要理解。
1.数据,属性
这里有三个概念 :数据对象,数据属性和数据集
什么是数据对象?样本、实例、数据点或对象。
如果以数据库为例:
数据对象就是以数据元组的形式存在于数据库中的,在数据库中以行的形式进行存储
什么是数据属性?属性是表示数据对象的特征的。
那么在数据库中就是表中的一列
什么是数据集?数据集是由数据对象组成的。
注意:
这里的属性,有不同的名称。
“维”,一般用在数据仓库中。
“特征”,一般用在机器学习中。
“变量”,一般用在统计学中。

2.属性的分类:

分类 描述
定量 给出类别,不给出实际的大小或者数值
定性 用整数或者实数表示

按照定量来划分,它包含:
标称属性
二元属性
序数属性
按照定性来划分,它包含:
区间标度属性
比例标度属性

每种属性的详解如下:
标称属性:
特点:
标称属性的值是一些符号或事物的名称。
每个值代表某种类别、编码、状态,因此标称属性又被看做是分类的(categorical)。
标称属性的值不具有有意义的序,而且不是定量的。(也就是说,给定一个对象集,找出这种属性的均值没有意义) 。
这些值不必具有有意义的序,在计算机科学中,这些值也被看做是枚举的(enumeration)。

二元属性:
特点:
二元属性是一种标称属性,只有两个状态:0 或 1,其中 0 通常表示该属性不出现,1 表示出现。
二元属性又称布尔属性,如果两种状态对应的是 true 和 false。
二元属性可分为两类:
对称的二元属性:如果两种状态具有同等价值,并且携带相同权重,如表示性别,则 0 和 1 分别表示男性或女性没有影响。
非对称的二元属性:两种状态的结果不是同等重要的,如 HIV 患者和不是 HIV 患者,为了方便计,将用 1 对最重要的结果(通常是稀有的)编码(如,HIV 患者),而另一个用 0 编码。

序数属性:
特点:
属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。(也就是对应的值有先后次序)
有意义的序,是有先后顺序的,比如xs/s/m/l/xl

区间标度属性:–差值有一定含义
用相等的单位尺度度量。
区间属性的值。
例:temperature(温度)属性,一般表示:10℃~15℃。

比例标度属性:–比值有一定含义
具有固定零点的数值属性。
比例标度(ratio-scaled)属性
(也就是该种属性中会有固有的为 0 的值)。
注意:我们是不会说今天的温度是昨天的1.5倍的

3.数据集的分类:
训练集:用来训练模型—占比60%
验证集/测试集:用来评估模型和预测数据,学习得到模型之后,去衡量模型好坏—占比20%
交叉验证集:衡量训练过程中模型的好坏–占比20%–但是不一定会有,可能会弱化掉

4.数据集的特征:
维度:一组数据的组织形式(一维、二维或多维)。
稀疏性:
如果数值为零的元素远大于非零元素的个数,且非零元素分布没有规律时,这样的矩阵被称作稀疏矩阵;如果非零元素数目占据绝大多数时,这样的矩阵被称作稠密矩阵。

分辨率:
空间分辨率越高,图像质量越好,空间分辨率越低,图像质量越差

5.度量:
通过对小的集合的特征捕获可能很大的数据集的各种特征
度量的分类分为两类:中心趋势和数据散布
中心趋势:
在这里插入图片描述
数据散布:
在这里插入图片描述
我们常说的数据挖掘的工具有哪些?
1.MLS:机器学习服务
它的特点如下:
易用:通过可视化的拖拽式工作流,实现数据建模、分析、预测、可视化。
开放:交互式Notebook,支持多种开源建模语言(Python等)。
丰富:预置丰富的机器学习算法,满足从数据导入和处理,到模型训练和评估、导出,覆盖预测分析端到端业务。
一站式:提供特征工程、机器学习算法、建模、预测、模型全生命周期管理的机器学习一站式机器学习应用

2.Python:
这是我们常用的工具之一,但是由于内容过多,我又新写了一篇笔记来详细记录python的内容
链接如下:python基础

3.Spark MLlib:
在这里插入图片描述
便于使用:可用于Java,Scala, Python和R。
性能:高质量算法,比MapReduce快100倍。
到处运行:Spark运行在Hadoop,Apache Mesos,Kubernetes,独立或云端,针对不同的数据源。

4.Rapid Miner:
在这里插入图片描述
可以轻松地为预测建模准备数据。
交互式地探索数据以评估其健康,完整性和质量。
快速修复缺失值和异常值等常见问题。
将多个数据集混合在一起,并使用简单的表达式编辑器创建新列。

5.IBM SPSS Modeler:
在这里插入图片描述
加快数据研究员执行操作任务的速度,从而帮助企业加速实现价值并获得预期的成果。
依靠 IBM 的产品和服务进行数据准备和发现、预测分析、模型管理和部署以及机器学习。

6.Oracle Data Mining:
提供了强大的数据挖掘算法,使数据分析人员能够进行预测并利用其Oracle数据进行投资。
在Oracle数据库中构建和应用预测模型,以帮助您预测客户行为,定位最佳客户,开发客户档案,识别交叉销售机会并检测异常和潜在欺诈。

发布了30 篇原创文章 · 获赞 19 · 访问量 2219

猜你喜欢

转载自blog.csdn.net/qiaoqiaomanman/article/details/104555845
今日推荐