机器学习一:准备工作

一、如何选择一个合适的算法
1.确定算法范围:
数据的种类:数值?文本?
有无目标队列数据:监督?非监督?
业务场景:分类?聚类?回归?
2.多算法尝试:
不同的数据适用算法不同,最好的方法是多尝试几种算法,选择效果较好的一种。
3.多视角分析:
在实际应用中,除了要考虑算法的效果以外,还要考虑算法的鲁棒性、复杂度、耗费的资源量、成本等。
二、常见算法分类
1.监督/无监督:根据用于算法的训练样本中是否存在目标值进行划分,也即是否依靠打标数据。
监督需要打标数据很耗费资源,但无监督难解决分类和回归问题
2.半监督:针对上述缺陷提出,采用折中,打标一部分数据。
3.强化学习:不断交互获得反馈,如无人驾驶和阿尔法狗
监督学习:
分类:KNN,NBM,RF,决策树,GBDT和SVM等
回归:逻辑归回、线性回归
无监督学习:
分类:K-Means、DBSCAN等
三、过拟合问题
是什么?
过拟合是模型学习能力太强,把部分不一般的特性学到了当成整个样本空间的特性,对某一特征的效果好,但其他特征就差。
为什么?
数据太少,模型太复杂
怎么解决?
L1/L2正则化
Dropout
Early stop
增大数据量:在机器学习中,数据质量重于模型质量

猜你喜欢

转载自blog.csdn.net/abandononeself/article/details/118444794