2021-10-12 数据挖掘-实用机器学习工具与技术》—— 学习笔记 第二章 输入:概念、实例和属性

第二章 输入:概念、实例和属性

  • 机器学习的输入采用概念、实例、和属性的形式
2.1 概念
  • 四种不同的学习方式
    • 分类学习:用一个已分类的样本集表示学习方案,学习对未来样本分类的方法;
    • 关联学习:寻找任何特性之间的关联,不仅仅预测类值;
    • 聚类:聚合相似性的分组
    • 数值预测:预测出的结论不是离散值而是数值量
2.2 样本

每一个数据都可以表示成实例与属性的矩阵,单一关系(数据库)、平面文件;

  • 数据收集:数据必须集中、整合和清理,大型数据整合的思想称为数据仓库。提供访问成组数据的接口。

  • ARFF格式:

  • 稀疏数据:
    在这里插入图片描述

  • 缺失值:

    • 如果要对不同类型的缺失值进行区别,可以用不同的负整数表示(-1,-2,etc);
    • 一个特定的缺失值是否存在一些特别的意义;
  • 不正确的值:

    超出取值范围的值、重复的数据、有效期外的数据

Guess you like

Origin blog.csdn.net/weixin_44080131/article/details/120733288