数据挖掘中机器学习如何选择合适的算法

最近看了一些资料,许多细的知识在这里总结一下,入门者也可以作为一个参考,关于在数据挖掘中我们应该选择哪种算法。

当然这个问题我在前面的一篇文章中已经有过介绍 官方小纸条,这个参考性是可靠的。这里的介绍作为一个更为详细的补充和说明。

补充下面四个小知识:

    监督学习:利用样本输入和期望输出来学习如何预测的技术。

    无监督学习:利用带有正确答案的样本数据进行训练,目的是要在一组数据中找寻某种结构,而这些数据本身并不是答案。

监督学习主要为分类和回归:神经网络、决策树、支持向量机、贝叶斯过滤等等;聚类则属于无监督学习的一个例子:K-means、DBSCAN等等

    连续数据:在某个区间可以任意取值,其数值连续不断,相邻两个数值可做无限分割。

    离散数据:其目标变量只能用自然数、整数单位计算的数据。

先说一下总的思路:

1:收集数据                    (爬虫、API、现有数据集)

2:准备输入数据            (检查数据是否有效:数据格式等)

3:分析输入数据            (清理数据)

4:训练算法                    (无监督学习不存在目标变量则无需训练)

5:测试算法                    (根据第四步的结果,监督学习:评估已知目标变量与预测目标变量 召回率;无监督:使用其它手段)

6:使用算法                    (若第5步不满意可以重复第四步,或者从收集数据开始。第五步满意则进入第六步使用该算法)

这里重点讲说明第4、5步对于选择何种算法的步骤:

由于做ppt有点浪费时间,所以这里写在纸上,应该能看清楚。这里只是一个大概的分析线路,基本适用,之所以说基本是因为有的特殊情况分类算法也可以用来处理回归问题,这里就暂不讨论。

具体的算法后面有机会再说一下,根据上面的步骤我们基本上能确定一个大的算法选择方向了。如果有建议的朋友还请指教。

猜你喜欢

转载自blog.csdn.net/qq_36523839/article/details/81215299