分类预测&聚类

分类预测&聚类

分类和聚类的不同,点击进行学习。

分类

概念

建立模型,描述预定的数据类集或概念集;之后使用模型进行分类。

预测

构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。

有监督学习(分类)

  • 训练集是带有类标签的
  • 新的数据是基于训练集进行分类的

无监督学习(聚类)

  • 训练集是没有类标签的
  • 提供一组属性,然后寻找出训练集中存在类别或者聚集。

关于分类和预测的问题

  • 数据准备
    • 数据清洗:对数据进行预处理,消除噪音和丢失值
    • 相关性分析(属性选择):去掉不相关或者冗余的属性
    • 数据转换:泛化或者对数据进行标准化
  • 评估、比较分类方法
    • 预测的准确率
    • 速度:创建速度、使用速度
    • 健壮性:处理噪声数据和缺失值数据的能力
    • 伸缩性:对大量数据,对磁盘驻留数据的处理能力
    • 可解释性:对模型的k可理解和解释的程度
    • 规则好坏的评价:决策树的大小、分类规则的简明性

决策树

思想(贪心)

  • 自上而下分而治之的方法
  • 开始时,所有的数据都在根节点上
  • 属性都是离散值字段(if 连续 : 离散化)
  • 所有记录用所选属性递归进行分割
  • 属性的选择是基于一个启发式规则或者一个统计的度量

停止分割的条件

  • 每一个节点上的数据都是属于同一个类别
  • 没有属性可以在用于对数据进行分割

Overfitting

生成的原因

  • 太多的分支,有些可能是对异常例外的反应
  • 在进行预测的时候准确率较低

解决方法

  • 预剪枝
    • 难点:选择一个阈值比较困难
  • 后修建
    • 使用另外一个测试集来决定那个树最好

SLIQ算法

点击进行学习。

贝叶斯分类算法

粗糙集算法

  • 解决不确定性问题,是对某一对象集合的近似。
  • 处理不确定问题的最大优点:它不需要关于数据的预先或附加的信息,而且易于掌握和使用
  • 可用于从数据库(数据仓库)中发现分类规则。

聚类

什么是聚类分析

一个数据对象的集合

聚类分析(无监督)
  • 把一个给定的数据对象分成不同的簇
  • 在同一个簇中,对象之间具有相似性
  • 不同簇的对象之间是相异的
典型应用
  • 模式识别
  • 空间数据分析
  • 图像处理
  • 经济学(市场研究)
  • 分档分类

eg:市场营销、土地使用、保险、城市规划、地震研究

数据挖掘对聚类的要求
  • 可伸缩性
  • 能够处理不同类型的属性
  • 能发现任意形状的簇
  • 能够处理噪声和异常
  • 对输入数据随想的顺序不敏感
  • 能处理高维数据
  • 能产生一个好的,满足用户指定约束的聚类结果
  • 结果是可解释的、可理解的和可用的
评价方法

一个好的聚类方法要能产生高质量的聚类结果—簇,这些簇具有一下两个特点:

  • 高的簇内相似性
  • 低的簇间相似性
So,如何计算相似性

通常使用距离来衡量两个对象之间的相异度。

  • 明考斯基距离(Minkowski distance):

20200601222639161

相似性

So,如何计算相似性

通常使用距离来衡量两个对象之间的相异度。

  • 明考斯基距离(Minkowski distance):

    [外链图片转存中…(img-kSASuJsQ-1591021899119)]

  • 简单匹配系数----评价二元变量之间的相似性

猜你喜欢

转载自blog.csdn.net/un_lock/article/details/106483494