分类预测&聚类
分类和聚类的不同,点击进行学习。
分类
概念
建立模型,描述预定的数据类集或概念集;之后使用模型进行分类。
预测
构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。
有监督学习(分类)
- 训练集是带有类标签的
- 新的数据是基于训练集进行分类的
无监督学习(聚类)
- 训练集是没有类标签的
- 提供一组属性,然后寻找出训练集中存在类别或者聚集。
关于分类和预测的问题
- 数据准备
- 数据清洗:对数据进行预处理,消除噪音和丢失值
- 相关性分析(属性选择):去掉不相关或者冗余的属性
- 数据转换:泛化或者对数据进行标准化
- 评估、比较分类方法
- 预测的准确率
- 速度:创建速度、使用速度
- 健壮性:处理噪声数据和缺失值数据的能力
- 伸缩性:对大量数据,对磁盘驻留数据的处理能力
- 可解释性:对模型的k可理解和解释的程度
- 规则好坏的评价:决策树的大小、分类规则的简明性
决策树
思想(贪心)
- 自上而下分而治之的方法
- 开始时,所有的数据都在根节点上
- 属性都是离散值字段(if 连续 : 离散化)
- 所有记录用所选属性递归进行分割
- 属性的选择是基于一个启发式规则或者一个统计的度量
停止分割的条件
- 每一个节点上的数据都是属于同一个类别
- 没有属性可以在用于对数据进行分割
Overfitting
生成的原因
- 太多的分支,有些可能是对异常例外的反应
- 在进行预测的时候准确率较低
解决方法
- 预剪枝
- 难点:选择一个阈值比较困难
- 后修建
- 使用另外一个测试集来决定那个树最好
SLIQ算法
点击进行学习。
贝叶斯分类算法
粗糙集算法
- 解决不确定性问题,是对某一对象集合的近似。
- 处理不确定问题的最大优点:它不需要关于数据的预先或附加的信息,而且易于掌握和使用
- 可用于从数据库(数据仓库)中发现分类规则。
聚类
什么是聚类分析
簇
一个数据对象的集合
聚类分析(无监督)
- 把一个给定的数据对象分成不同的簇
- 在同一个簇中,对象之间具有相似性
- 不同簇的对象之间是相异的
典型应用
- 模式识别
- 空间数据分析
- 图像处理
- 经济学(市场研究)
- 分档分类
eg:市场营销、土地使用、保险、城市规划、地震研究
数据挖掘对聚类的要求
- 可伸缩性
- 能够处理不同类型的属性
- 能发现任意形状的簇
- 能够处理噪声和异常
- 对输入数据随想的顺序不敏感
- 能处理高维数据
- 能产生一个好的,满足用户指定约束的聚类结果
- 结果是可解释的、可理解的和可用的
评价方法
一个好的聚类方法要能产生高质量的聚类结果—簇,这些簇具有一下两个特点:
- 高的簇内相似性
- 低的簇间相似性
So,如何计算相似性
通常使用距离来衡量两个对象之间的相异度。
- 明考斯基距离(Minkowski distance):
相似性
So,如何计算相似性
通常使用距离来衡量两个对象之间的相异度。
-
明考斯基距离(Minkowski distance):
[外链图片转存中…(img-kSASuJsQ-1591021899119)]
-
简单匹配系数----评价二元变量之间的相似性