【分类模型】决策树

1.决策树模型


在这里插入图片描述

2.外卖决策树


  • 三个属性:食堂是否营业,账号是否有红包,是否疲劳。
  • 两个结果:点外卖,吃食堂。
    决策树的形成重点在属性的选取,在能分类出来的情况下,属性越少越好。
样本 学生 红包 食堂营业 结果
1 1 0 1 吃食堂
2 0 1 1 点外卖
3 1 1 0 点外卖
n 1 0 0 吃食堂

3.分类算法——ID3算法(1986)


  • ID3算法是在每个节点处选取能获得最高信息增益的分支属性进行分裂。

  • 衡量样本集合纯度的指标: ,熵值越小,不确定程度越小。定义如下:

E n t r o p y ( S ) = i = 1 m P i l o g 2 P i Entropy(S)=-\sum_{i=1}^mP_i*log2^{P_i}
其中 P i P_i 即为大样本中分类第 i i 种结果的频率,即为概率。

  • 举个简单例子帮助理解熵值,比如说如果有一个大小为10的布尔值样本集合 S S ,其中真值有6个,假值有4个,则该布尔型样本分类的熵值为:

E n t r o p y ( S ) = i = 1 2 P i l o g 2 P i = 6 10 l o g 2 6 10 4 10 l o g 2 4 10 = 0.9710 Entropy(S)=-\sum_{i=1}^2P_i*log2^{P_i}= -\frac{6}{10}log2^{\frac{6}{10}}-\frac{4}{10}log2^{\frac{4}{10}}=0.9710

  • 是否知道一个属性对前后两个熵值的影响较大,说明该属性较重要,本质就是属性对熵值的影响程度大小与该属性的重要程度成正比。

m a x ( G a i n ( S , A ) ) = E n t r o p y ( s ) i = 1 v S i S E n t r o y ( S i ) max(Gain(S,A))=Entropy(s)-\sum_{i=1}^v\frac{S_i}{S}Entroy(S_i)

通过上式“有放回地”计算每个属性的信息增益值,其中 S i S \frac{S_i}{S} 是一种熵值比赋权,确定最大的信息增益的属性,选取该属性作为最重要的属性,构建决策树的节点。
确定最大的信息增益的属性,选取该属性作为最重要的属性,构建决策树的节点。

发布了22 篇原创文章 · 获赞 3 · 访问量 3105

猜你喜欢

转载自blog.csdn.net/weixin_39920026/article/details/103955055