数据分析师养成之路之python:从头学习机器学习(预)

机器学习?
就是把无序数据转换成有用的信息(例如,尿布湿和啤酒)
机器学习的主要任务
1.分类,2.回归
如何分类?
要想分类,我们需要学习如何分类,即让机器通过算法来分类
怎么实现?回归同分类
输入:样本集合(训练集=n个训练样本,每个训练样本=特征*m+目标变量(分类中:标称型,回归中:连续型)
算法通过输入的样本集合,发现特征和目标变量间的关系(y(目标变量)=kx+b(x为特征))
判断算法的好坏(该算法的分类结果如何?)
两套独立样本集:
1.训练集:算法的输入,得到模型(数据+算法) (输入:train_data,y_train)
2.测试集:不提供目标变量 ,由模型判断样本输入某个类别,比较和实际类别差别,即可得到算法的实际精确度 (输入:test_data,输出:y_pre,比较y_test(实际类别)和y_pre)

当然,以上的分类和回归属于监督学习(有目标变量)
与之对应的是无监督学习(无目标变量)
有监督学习:k-近邻,svm,贝叶斯,决策树….
无监督学习: k-均值,DBSCAN….


如何选择合适的方法
1.使用机器学习算法的目的是什么?(做分类?做预测?其它?)
2.数据问题(缺失值,异常值,特征,数据量…)


猜你喜欢

转载自blog.csdn.net/lulujiang1996/article/details/81169156