机器学习——01(sklearn工具箱机器学习算法的大致分类)

机器学习算法分类:
(具体算法选择可根据样本量大小以及下面的特征进行选择)
1.无监督算法,用于降维,作为辅助性工具的算法:PCA,SVD,Kmeans;
2.无监督算法,用于关联分析的算法:Aprior算法、隐马尔科夫(现在已经少用了,可用循环神经网络取代);
3.有监督算法,用于分类(离散型标签)用:svm,GDBT,LR,XGBT;
4.有监督算法,用于分类(连续型标签)用:liner regression,Ridge;
机器学习思路:
1)准备数据—pandas读取,观察数据情况,字段的含义及其分布,通常如果分布不为正态分布,需要将数据通过取对数变成正太分布,在最后的时候再取其返回值;
2)特征工程——连续型数据(观察数值型数据是否具有大小的意义,如果没有,需要去除或者进行转换成字符型),字符型数据(通常通过one-hot编码即可实现,pandas有自带的get Dummy的操作),然后针对数据缺失的情况进行具体处理;
3)建模:可分为基础版和进阶版,基础版用一些:Ridge模型、Decesion_tree,Random Forest等模型,利用pandas自带的cv进行调参;进阶版:运用一些boosting的方法:从pandas里面导入ensamble框架,该框架自带基础为decision_tree,也可以自己设定为其他如Ridge的算法,设定关于加入个数的列表,依次cv训练看结果;还有Xgboost;
非结构化的数据:自然语言处理对字符的处理;视频:图片,及语音的处理;

猜你喜欢

转载自blog.csdn.net/sinat_26566137/article/details/80637816