读《数据挖掘-实用机器学习技术》笔记（二）

在了解这些数据挖掘技术是如何工作以前，首先必须知道数据中的结构模式是如何表达的。机器学习所能发现的模式有许多不同的表达方式，每一种方式就是一种推断数据输出结构的技术。一旦理解了输出结构的表示方法，就向数据输出结构是如何产生的理解前进了一大步。

决策表和决策树。决策树就是分治思想。

如果是数值属性，一般在一个节点上的测试通常是判断这个数值是否大于或者小于某一个事先定义的常量。给出一个二叉分裂或者三叉，多个。实数测试的是一个区间，而不是一个常量。也可以落在区间以下、区间内合区间以上的判断实行三叉分裂。一个数值属性通常要在给出的任何一条从树根到叶子的路径上被测试多次，每一次测试都会采用一个不同的常量。

残缺值是一个显而易见的问题。当在一个节点上所测试的属性值残缺时，就不能确定应该将它分配到哪个分支上。有时将残缺值作为属性的一个独立的值来处理。否则，就应该采用一个特殊的残缺值的处理方法，如果是实数一般用均值，枚举型，一般用分类最多的实例分支上。

为了有效地建树，需要有一种观察数据的好方法，因为通过观察可以判断出哪个属性有可能成为用于测试的最佳属性，以及应该采用哪种适当的测试方法。

对不同属性组合分类（数据）的评估是一项十分乏味辛苦的工作。

从一个决策树上直接地读出一族规则是容易的。每一片叶子可以产生一条规则。规则的先决条件包含了从根到叶子路径上所有节点的条件，规则的结论是叶子上标注的类。这个过程能产生明确的规则，他们执行的次序是无关的。但是，通常需要对从决策树上直接读出的规则的复杂度远远超出所需。素以，为了去除一些冗余的测试，常常需要对从决策书上得到的规则进行修剪。

但是，决策树不易表示出隐含在一个规则集里的不同规则间的逻辑或关系，所以，将一个普通的规则集合转换成一个决策树并不是十分直截了当的，当规则拥有相同的结构，却拥有不同属性时就是反映这个问题的一个很好的例子。

关联规则：恩那个狗预测任何属性，不仅仅是类，所以关联规则也能预测属性的组合，除此以外关联规则与分类规则并没有什么不同。关联规则在使用的时候不想分类规则那样被组合成一个规则集来使用。不同的关联规则揭示出来数据集的不同规律，通常用来预测不同的事物。一个关联规则的覆盖量是关联规则能够正确预测的实例数量，通常称为支持。正确率通常称为置信度，是将正确预测的实例数量表示为它在关联规则应用所涉及的全部实例中占据的比例。

包含例外的规则：分类规则的一个自然扩展就是允许规则包含例外。它是在现有的规则上使用例外表达法来递增地修改一个规则集，而不需要重新建立整个规则集。

如果仅仅修改原先规则，不能简单地改变这些规则中的属性值为测试边界，并不能解决问题，因为用来建立规则集的实例也会被错分。

包含关系的规则：命题规则能够充分表达精炼、正确地概念描述。

数值预测树：在回归树的叶子上的数字是到达这个叶子的所有实例的平均类值。这个数比回归公式更大或更复杂。如果计算CPU性能明显小于由回归公式计算的。回归树能做出更加精确的预测，是因为在这个问题上，一个简单线性模型的数据表达能力较差。然而，回归树的规模较大，很繁琐，也很难对它进行解释。

将回归公式和回归树相结合是一个可行的方案。一个在叶节点包含了线性公式，即回归公式，而不是一个预测值，这个树称为模型树。模型树用多个线性修补来逼近连续函数。这是一种比线性回归或者回归树更好的表达形式。

基于实例的表达：训练就是记住了一个训练实例集，在遇到一个新的实例时，就会在记忆中找出与之最相似的一个训练实例。唯一的问题是如何理解“相似”，从实例集众提取出知识，保存实例本身，并且将类未知的新实例与现有的类已知的实例联系起来进行操作。

聚类：聚类操作只不过是通向结构描述一个步骤。

知识表达传统上是人工智能的一个重要主题。

冲突解决策略。

下一章，将要研究一些针对特定数据集，采用的算法。

读《数据挖掘-实用机器学习技术》笔记（二）

猜你喜欢