第二章 输入:概念、实例和属性
- 机器学习的输入采用概念、实例、和属性的形式
2.1 概念
- 四种不同的学习方式
- 分类学习:用一个已分类的样本集表示学习方案,学习对未来样本分类的方法;
- 关联学习:寻找任何特性之间的关联,不仅仅预测类值;
- 聚类:聚合相似性的分组
- 数值预测:预测出的结论不是离散值而是数值量
2.2 样本
每一个数据都可以表示成实例与属性的矩阵,单一关系(数据库)、平面文件;
-
数据收集:数据必须集中、整合和清理,大型数据整合的思想称为数据仓库。提供访问成组数据的接口。
-
ARFF格式:
-
稀疏数据:
-
缺失值:
- 如果要对不同类型的缺失值进行区别,可以用不同的负整数表示(-1,-2,etc);
- 一个特定的缺失值是否存在一些特别的意义;
-
不正确的值:
超出取值范围的值、重复的数据、有效期外的数据