寻找可用的机器学习算法

当对自己的任务环境有了一个清晰的认识后，你就可以使用你所掌握的工具确定适用于待解决的问题并切实可行的算法。一些影响你选择模型的因素如下：

• 模型是否满足业务目标

• 模型需要多少数据预处理工作

• 模型有多准确

• 模型的可解释性如何

• 模型运行的速度有多快：构造模型需要多久？模型做出预测需要多长时间？

• 模型的可伸缩性如何

模型的复杂度是一个影响算法选择的重要标准。一般来说，一个更复杂的模型具备下列特征：

• 它依赖于更多的特征进行学习和预测（例如，使用十个而不是两个特征来预测目标）

• 它依赖于更复杂的特征工程（例如，使用多项式特征、交互特征或主成分）

• 它有更大的计算开销（例如，需要一个由 100 棵决策树组成的随机森林，而不是一棵单独的决策树）

除此之外，同样的机器学习算法可以基于参数的个数和某些超参数的选择而变得更加复杂。例如：

• 回归模型可以拥有更多的特征，或者多项式项和交互项。

• 决策树可以拥有更大或更小的深度。

将相同的算法变得更加复杂增加了发生过拟合的几率。

2020-03-19 14:29:02

喜欢打酱油的老鸟博客专家

发布了472 篇原创文章 · 获赞 757 · 访问量 161万+

他的留言板关注

寻找可用的机器学习算法

猜你喜欢