机器学习 四 基本方法一

摘自: 《数据挖掘-实用机器学习技术》

一、推断基本规则,1规则(1-rule)

定义:建立一个只对单个属性进行测试的规则,并进行不同的分支。

,每一个分支对应一个不同的属性值。

过程为:

 

  对每个属性

    对每个属性值,建立如下一条规则

      计算每个类别(属性值-结果)出现的频率,找出出现最频繁的类别,建立规则,将 这个类别赋予这个属性值(如outlook sunny-no 2/5 overcast-yes 0/4 rainy-yes 2/5)

    计算规则的误差率(这个属性未覆盖的实例/实例数 2/5 0/4 2/5)

  选择误差率最小的规则(如(2+0+2)/(5+4+5))

 

1.解决残缺值,是把残缺值作为一个属性值

 

2.对于名词属性,对每个属性值类别非常简单,对于数值,需要进行划分法

如:

64 65 68 69 70 71 72 72 75 80 81 83 85

y  n  y  y  y  y  y  y  y  n  y  y  n

根据结果y,n划分区间,(避免属性过度拟合overfitting(如身份证,编码等对应结果都是一一对应,会导致分类也是一个一个分类),可以设置最小分类数,如3为最小分类树64 65 68 69 70 71 72 72 75就是一类n<75 y  n>80 n)

 

 

二、统计建模

使用所有的属性,并认为属性是独立且平等的,一起决定结果。

方法:列出所有的属性值,属性结果值,结论值,以及所有的属性结果百分比,结论百分比。对于新的实例,将属性对应的结果百分比相乘 再与所要结论百分比相乘,符合贝叶斯规则。

 

贝叶斯规则

Pr[H|E] = Pr[E|H]Pr[H]/Pr[E]

Pr[yes|E] = Pr[E1|yes]* Pr[E2|yes]* Pr[E2|yes]* Pr[E2|yes]*Pr[yes]/Pr[E]

Pr[A]指事件A发生的概率

Pr[A|B]是基于B发生,A发生的概率

 

贝叶斯规则在结合属性选择(排除冗余属性,会造成属性非独立)后,用于建模

(注意,在当一个属性未绝对概率时,如天气sunny为100%,需要补一,如有10个实例,两种属性值,则10+1/10+2,1/10+2为新的概率,这种技术成为拉普拉斯估计器

2+up1 4+up2 3+up3  /9+u  & p1+p2+p3=1)

 

1.解决残缺值,是忽略残缺值,因为统计模型用比例值,所以不会印象比例总和

 

2.处理数值,名词需要求出概念,数值需要求平均值,和标准差,并且假设他们拥有正态或者高斯的概率分布。

u平均值u= sum/num;

σ标准差 方差的平方根     方差sum((x-u)^2)/(num – 1)

 

3.文档分类的贝叶斯模型

采用多项朴素贝叶斯模型,前提是单词出现的次序和位置都不重要。那么文档E可以看做一袋子单词(单词在袋子中的顺序不考虑)

<!--[if !supportLists]-->例子,   <!--[endif]-->如{yellow,yellow,yellow}E  Pr[yellow|H]=75% Pr[blue|H]=25%

则Pr[{yellow,yellow,yellow}|H]=3! * 0.75^3/3! * 0.25^0/0! = 27/64

 

4.贝叶斯模型缺点

很显然会发现,贝叶斯模型默认属性独立,则在许多有冗余属性上会导致属性权重不一。对于数值来说,必须是正太分布。

猜你喜欢

转载自blackproof.iteye.com/blog/1898089
今日推荐