分类预测&聚类

其他 2020-06-19 10:04:42 阅读次数: 0

分类预测&聚类

分类和聚类的不同，点击进行学习。

分类

概念

建立模型，描述预定的数据类集或概念集；之后使用模型进行分类。

预测

构造和使用模型评估无标号样本类，或评估给定样本可能具有的属性值或值区间。

有监督学习(分类)

训练集是带有类标签的
新的数据是基于训练集进行分类的

无监督学习(聚类)

训练集是没有类标签的
提供一组属性，然后寻找出训练集中存在类别或者聚集。

关于分类和预测的问题

数据准备
- 数据清洗：对数据进行预处理，消除噪音和丢失值
- 相关性分析(属性选择)：去掉不相关或者冗余的属性
- 数据转换：泛化或者对数据进行标准化
评估、比较分类方法
- 预测的准确率
- 速度：创建速度、使用速度
- 健壮性：处理噪声数据和缺失值数据的能力
- 伸缩性：对大量数据，对磁盘驻留数据的处理能力
- 可解释性：对模型的k可理解和解释的程度
- 规则好坏的评价：决策树的大小、分类规则的简明性

决策树

思想(贪心)

自上而下分而治之的方法
开始时，所有的数据都在根节点上
属性都是离散值字段（if 连续 : 离散化)
所有记录用所选属性递归进行分割
属性的选择是基于一个启发式规则或者一个统计的度量

停止分割的条件

每一个节点上的数据都是属于同一个类别
没有属性可以在用于对数据进行分割

Overfitting

生成的原因

太多的分支，有些可能是对异常例外的反应
在进行预测的时候准确率较低

解决方法

预剪枝
- 难点：选择一个阈值比较困难
后修建
- 使用另外一个测试集来决定那个树最好

SLIQ算法

点击进行学习。

贝叶斯分类算法

粗糙集算法

解决不确定性问题，是对某一对象集合的近似。
处理不确定问题的最大优点:它不需要关于数据的预先或附加的信息，而且易于掌握和使用
可用于从数据库(数据仓库)中发现分类规则。

聚类

什么是聚类分析

簇

一个数据对象的集合

聚类分析(无监督)

把一个给定的数据对象分成不同的簇
在同一个簇中，对象之间具有相似性
不同簇的对象之间是相异的

典型应用

模式识别
空间数据分析
图像处理
经济学(市场研究)
分档分类

eg：市场营销、土地使用、保险、城市规划、地震研究

数据挖掘对聚类的要求

可伸缩性
能够处理不同类型的属性
能发现任意形状的簇
能够处理噪声和异常
对输入数据随想的顺序不敏感
能处理高维数据
能产生一个好的，满足用户指定约束的聚类结果
结果是可解释的、可理解的和可用的

评价方法

一个好的聚类方法要能产生高质量的聚类结果—簇，这些簇具有一下两个特点：

高的簇内相似性
低的簇间相似性

So，如何计算相似性

通常使用距离来衡量两个对象之间的相异度。

明考斯基距离(Minkowski distance):

20200601222639161

相似性

So，如何计算相似性

通常使用距离来衡量两个对象之间的相异度。

明考斯基距离(Minkowski distance):

[外链图片转存中…(img-kSASuJsQ-1591021899119)]
简单匹配系数----评价二元变量之间的相似性

猜你喜欢

转载自blog.csdn.net/un_lock/article/details/106483494

分类预测&聚类

分类和聚类

聚类与分类区别

分类聚类

文本聚类与分类

分类与聚类

聚类及聚类算法的分类

数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

基于KMeans聚类算法的网络流量分类预测(毕业论文)

分类和聚类的区别

聚类和分类的区别

Difference between 分类and聚类

数据分类分析--聚类

【聚类】聚类算法和分类算法总结

分类，聚类及其回归的区别

【总结】分类、聚类的评估指标

对文章的分类和聚类

机器学习：分类，回归，聚类

分类、回归、聚类、降维的区别

分类-回归-聚类-异常检测

机器学习 - 聚类、分类、回归的区别

聚类算法和分类算法总结

回归、分类与聚类基础学习1

聚类算法和分类算法

分类与聚类的本质区别

时间序列分析——分类和聚类

数学建模--分类模型/聚类模型

分类、聚类、回归、降维算法

机器学习的分类、回归、聚类问题

推荐算法分类：协同过滤、聚类、分类

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)