机器学习四基本方法一

摘自：《数据挖掘-实用机器学习技术》

一、推断基本规则，1规则（1-rule）

定义：建立一个只对单个属性进行测试的规则，并进行不同的分支。

，每一个分支对应一个不同的属性值。

过程为：

对每个属性

对每个属性值，建立如下一条规则

计算每个类别（属性值-结果）出现的频率，找出出现最频繁的类别，建立规则，将这个类别赋予这个属性值（如outlook sunny-no 2/5 overcast-yes 0/4 rainy-yes 2/5）

计算规则的误差率（这个属性未覆盖的实例/实例数 2/5 0/4 2/5）

选择误差率最小的规则（如(2+0+2)/(5+4+5)）

1.解决残缺值，是把残缺值作为一个属性值

2.对于名词属性，对每个属性值类别非常简单，对于数值，需要进行划分法

如：

64 65 68 69 70 71 72 72 75 80 81 83 85

y n y y y y y y y n y y n

根据结果y,n划分区间，（避免属性过度拟合overfitting（如身份证，编码等对应结果都是一一对应，会导致分类也是一个一个分类），可以设置最小分类数，如3为最小分类树64 65 68 69 70 71 72 72 75就是一类n<75 y n>80 n）

二、统计建模

使用所有的属性，并认为属性是独立且平等的，一起决定结果。

方法：列出所有的属性值,属性结果值，结论值，以及所有的属性结果百分比，结论百分比。对于新的实例，将属性对应的结果百分比相乘再与所要结论百分比相乘，符合贝叶斯规则。

贝叶斯规则

Pr[H|E] = Pr[E|H]Pr[H]/Pr[E]

Pr[A]指事件A发生的概率

Pr[A|B]是基于B发生，A发生的概率

贝叶斯规则在结合属性选择（排除冗余属性，会造成属性非独立）后，用于建模

（注意，在当一个属性未绝对概率时，如天气sunny为100%，需要补一，如有10个实例，两种属性值，则10+1/10+2,1/10+2为新的概率，这种技术成为拉普拉斯估计器

2+up1 4+up2 3+up3 /9+u & p1+p2+p3=1）

1.解决残缺值，是忽略残缺值，因为统计模型用比例值，所以不会印象比例总和

2.处理数值，名词需要求出概念，数值需要求平均值，和标准差，并且假设他们拥有正态或者高斯的概率分布。

u平均值u= sum/num;

σ标准差方差的平方根方差sum((x-u)^2)/(num – 1)

3.文档分类的贝叶斯模型

采用多项朴素贝叶斯模型，前提是单词出现的次序和位置都不重要。那么文档E可以看做一袋子单词（单词在袋子中的顺序不考虑）

例子， 如{yellow,yellow,yellow}E Pr[yellow|H]=75% Pr[blue|H]=25%

则Pr[{yellow,yellow,yellow}|H]=3! * 0.75^3/3! * 0.25^0/0! = 27/64

4.贝叶斯模型缺点

很显然会发现，贝叶斯模型默认属性独立，则在许多有冗余属性上会导致属性权重不一。对于数值来说，必须是正太分布。

机器学习 四 基本方法一