【ML1】决策树算法（ID3）介绍及实战

首先我们要深入了解决策树算法的每一个步骤，最基本的是ID3算法。以下这几个博客介绍的很详细，一定要推导

官网地址： https://scikit-learn.org/stable/modules/tree.html

经过上面重要的阶段，接下来进行简要总结，

总结

接下来实战自己建立决策树

https://scikit-learn.org/stable/modules/tree.html

预处理


#  将特征值转化为dummy variable
from sklearn.feature_extraction import DictVectorizer
# 自带 - 读取csv
import csv
from sklearn import tree
from sklearn import preprocessing
from sklearn.externals.six import StringIO

#  1. 预处理：对数据整合规范化

#  读取表头
myData = open("buyComputer.csv", "rt")    # [2] myData = open("buyComputer.csv", "rb")
reader = csv.reader(myData)    # print(reader)

headers = next(reader)   # [2] headers = reader.next()
# print(headers)     # ['RID', 'age', 'income', 'student', 'credit_rating', 'class_buys_computer']

featureList = []
labelList = []

for row in reader:
    # print(row)      # ['RID', 'age', 'income', 'student', 'credit_rating', 'class_buys_computer']['1', 'youth', 'high', 'no', 'fair', 'no']
    labelList.append(row[len(row) - 1])
    rowDict = {}     # 一个属性一个字典
    for i in range(1, len(row) - 1):
        rowDict[headers[i]] = row[i]        # {'age': 'youth', 'income': 'high', 'student': 'no', 'credit_rating': 'fair'}...
    featureList.append(rowDict)
# print(featureList)      # [{'age': 'youth', 'income': 'high', 'student': 'no', 'credit_rating': 'fair'}, {'age': 'youth', 'income': 'high', 'student': 'no', 'credit_rating': 'excellent'}, {'age': 'middle_aged', 'income': 'high', 'student': 'no', 'credit_rating': 'fair'}, {'age': 'senior', 'income': 'medium', 'student': 'no', 'credit_rating': 'fair'}, {'age': 'senior', 'income': 'low', 'student': 'yes', 'credit_rating': 'fair'}, {'age': 'senior', 'income': 'low', 'student': 'yes', 'credit_rating': 'excellent'}, {'age': 'middle_aged', 'income': 'low', 'student': 'yes', 'credit_rating': 'excellent'}, {'age': 'youth', 'income': 'medium', 'student': 'no', 'credit_rating': 'fair'}, {'age': 'youth', 'income': 'low', 'student': 'yes', 'credit_rating': 'fair'}, {'age': 'senior', 'income': 'medium', 'student': 'yes', 'credit_rating': 'fair'}, {'age': 'youth', 'income': 'medium', 'student': 'yes', 'credit_rating': 'excellent'}, {'age': 'middle_aged', 'income': 'medium', 'student': 'no', 'credit_rating': 'excellent'}, {'age': 'middle_aged', 'income': 'high', 'student': 'yes', 'credit_rating': 'fair'}, {'age': 'senior', 'income': 'medium', 'student': 'no', 'credit_rating': 'excellent'}]

# Vetorize features
vec = DictVectorizer()
dummyX = vec.fit_transform(featureList).toarray()
# print("dummyX:" + str(dummyX))   # [[0. 0. 1. 0. 1. 1. 0. 0. 1. 0.] [0. 0. 1. 1. 0. 1. 0. 0. 1. 0.]]
# print(vec.get_feature_names())      # ['age=middle_aged', 'age=senior', 'age=youth', 'credit_rating=excellent', 'credit_rating=fair', 'income=high', 'income=low', 'income=medium', 'student=no', 'student=yes']
# print("labelList: " + str(labelList))    # labelList: ['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']

# vectorize class labels
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(labelList)
# print("dummyY：" + str(dummyY))    #[[0] [0] [1] [1]...]

#  2. 调用库函数
# Using decision tree for classification
clf = tree.DecisionTreeClassifier(criterion="entropy")
clf = clf.fit(dummyX, dummyY)
# print(str(clf))    # DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,max_features=None, max_leaf_nodes=None,

#  3. 可视化
# Visualize model
with open("dsTree.dot","w") as f:
    f = tree.export_graphviz(clf, feature_names=vec.get_feature_names(), out_file=f)  # 将 011 还原回 young名称这些
oneRowX = dummyX[0, :]
# print(str(oneRowX))  # [0. 0. 1. 0. 1. 1. 0. 0. 1. 0.]

newRowX = oneRowX
newRowX[0] = 1
newRowX[2] = 0
# predictY = clf.predict(newRowX)
predictY = clf.predict(newRowX.reshape(1, -1))
print(str(predictY))

【ML1】决策树算法（ID3）介绍及实战

总结

接下来实战自己建立决策树

猜你喜欢