Python机器学习 决策树

树模型
决策树:从根节点开始一步步走到叶子节点(决策)
所有的数据最终都会落到叶子节点,既可以做分类也可以做回归

树的组成
根节点:第一个选择点
非叶子节点与分支:中间过程
叶子节点:最终的决策结果

决策树的训练与测试
训练阶段:从给定的训练集构造出来一棵树(从跟节点开始选择特征, 如何进行特征切分)
测试阶段:根据构造出来的树模型从上到下去走一遍就好了
一旦构造好了决策树,那么分类或者预测任务就很简单了,只需要走一遍 就可以了,那么难点就在于如何构造出来一颗树,这就没那么容易了,需要考虑的问题还有很多的!

如何切分特征(选择节点)
那么根节点的选择该用哪个特征呢?接下来呢?如何切分呢?
想象一下:我们的目标应该是根节点就像一个老大似的能更好的切分数据 (分类的效果更好),根节点下面的节点自然就是二当家了。
目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类 情况,找出来最好的那个当成根节点,以此类推。

衡量标准1:

信息熵
熵是表示随机变量不确定性的度量

(解释:说白了就是物体内部的混乱程度,比如杂货市场里面什么都有 那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多啦)
决策树
公式:H(X)=- ∑ pi * logpi, i=1,2, ... , n
一个栗子:

A集合[1,1,1,1,1,1,1,1,2,2]

B集合[1,2,3,4,5,6,7,8,9,1]
显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些 而B中类别太多了,熵值就会大很多。(在分类任务中我们希望通过节点分支后数据类别的熵值变小,意味着分类效果越好)

熵:不确定性越大,得到的熵值也就越大

当p=0或p=1时,H(p)=0,随机变量完全没有不确定性

当p=0.5时,H(p)=1,此时随机变量的不确定性最

衡量标准2:

基尼系数

有了衡量标准后,我们还需要做决策在各个分支上选择节点

因此,我们用信息增益来进行决策

信息增益:表示特征X使得类Y的不确定性减少的程度。 (分类后的专一性,希望分类后的结果是同类在一起)

信息增益也就是选择某特征作为分支上的头节点时,对未分类前的数据的信息熵或者基尼系数与分类后的数据的信息熵或者基尼系数做减法运算

决策树构造实例

数据集如下:

数据:14天打球情况
特征:4种环境变化
目标:构造决策树

在历史数据中(14天)有9天打球,5天不打球,所以此时的熵应为:

4个特征逐一分析,先从outlook(基于天气的划分)特征开始:
Outlook = sunny时,熵值为0.971 Outlook = overcast时,熵值为0 Outlook = rainy时,熵值为0.971

根据数据统计,outlook取值分别为sunny,overcast,rainy的概率分别为: 5/14, 4/14, 5/14
熵值计算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
(gain(temperature)=0.029 gain(humidity)=0.152 gain(windy)=0.048)
信息增益:系统的熵值从原始的0.940下降到了0.693,增益为0.247
同样的方式可以计算出其他特征的信息增益,那么我们选择最大的那个 就可以啦,相当于是遍历了一遍特征,找出来了大当家,然后再其余的 中继续通过信息增益找二当家!

决策树算法
ID3:信息增益(会有一些弊端,例如特征序号(连续性的特征)做树根,具体可以百度)
决策树
C4.5:信息增益率(解决ID3问题,考虑自身熵)
CART:使用GINI系数来当做衡量标准
GINI系数:


(和熵的衡量标准类似,计算方式不相同)

决策树剪枝策略
为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据 (想象一下,如果树足够庞大,每个叶子节点不就一个数据了嘛)
剪枝策略:预剪枝,后剪枝
预剪枝:

过程:边建立决策树边进行剪枝的操作(更实用)
方法:限制深度,叶子节点个数 叶子节点样本数,信息增益量等
后剪枝:

过程:当建立完决策树后来进行剪枝操作

方法:通过一定的衡量标准


(叶子节点越多,损失越大)

下面是个例子:

from sklearn.datasets.california_housing import fetch_california_housing
housing = fetch_california_housing()
#输出其中一个样本看看
# print(housing.data.shape)
# print(housing.data)
# print(housing.data[0])
# print(housing.target)

#数据来源的说明
# print(housing.DESCR)

from sklearn import tree
# dtr =tree.DecisionTreeRegressor(max_depth=4)
# dtr.fit(housing.data[:,[6,7]],housing.target)
from sklearn.model_selection import train_test_split
data_train,data_test,target_train,targer_test=train_test_split(housing.data,housing.target,test_size=0.1,random_state=42)
drt=tree.DecisionTreeRegressor(random_state=42)
# dtr.fit(data_train,target_train)
# dtr.score(data_test,targer_test)
# print(dtr.score(data_test,targer_test))
#随机森林
from sklearn.ensemble import RandomForestRegressor
# rfr = RandomForestRegressor( random_state = 42)
# rfr.fit(data_train, target_train)
# print(rfr.score(data_test, targer_test))
#迭代模块,用来遍历参数
from sklearn.grid_search import GridSearchCV
tree_param_grid={'min_samples_split':list((3,6,9)),'n_estimators':list((10,50,100))}
#参数:算法实例,参数字典格式,cv是交叉验证的次数
grid=GridSearchCV(RandomForestRegressor(),param_grid=tree_param_grid,cv=5)
grid.fit(data_train, target_train)
print(grid.grid_scores_, grid.best_params_, grid.best_score_)

#决策树默认参数
# DecisionTreeRegressor(criterion='mse', max_depth=2, max_features=None,
#            max_leaf_nodes=None, min_impurity_split=1e-07,
#            min_samples_leaf=1, min_samples_split=2,
#            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
#            splitter='best')
# 树模型参数:
# 1.criterion gini or entropy 选择基尼系数还是熵值作为信息增益
#
# 2.splitter best or random 前者(默认)是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)
#
# 3.max_features None(所有,默认),log2,sqrt,N 特征小于50的时候一般使用所有的
#
# 4.max_depth (预剪枝最核心模块)数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制下
#
# 5.min_samples_split (预剪枝最核心模块)如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
#
# 6.min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝,如果样本量不大,不需要管这个值,大些如10W可是尝试下5
#
# 7.min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
#
# 8.max_leaf_nodes 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制具体的值可以通过交叉验证得到。
#
# 9.class_weight 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。
#
# 10.min_impurity_split 这个值限制了决策树的增长,如果某节点的不纯度(基尼系数,信息增益,均方差,绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点 。
#
# n_estimators:要建立树的个数
# dot_data = tree.export_graphviz(
#         dtr,
#         out_file = None,
#         feature_names = housing.feature_names[6:8],
#         filled = True,
#         impurity = False,
#         rounded = True
#     )
# import pydotplus
# graph = pydotplus.graph_from_dot_data(dot_data)
# graph.get_nodes()[7].set_fillcolor("#FFF2DD")
# from IPython.display import Image
# Image(graph.create_png())

猜你喜欢

转载自blog.csdn.net/qq_41686130/article/details/87466224