一、机器学习一些基本概念

一、数据科学项目的各个阶段

1.定义业务问题

      Albert Einstein once quoted “Everything should be made as simple as possible, but not simpler” 这句话是定义业务问题的关键。  需要开发和构建问题陈述。需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没有需要解决的挑战。头脑风暴会议,研讨会和访谈可以帮助发现这些挑战并提出假设。让我用一个例子来说明这一点。让我们假设一家电信公司由于客户群减少而导致其同比收入下降。 在这种情况下,业务问题可能定义为:

  • 公司需要通过定位新细分和减少客户流失来扩大客户群。

2.分解机器学习任务

业务问题一旦定义,就需要分解为机器学习任务。 让我们详细说明我们在上面设置的示例。如果组织需要通过定位新细分并减少客户流失来扩大客户群,那么我们如何将其分解为机器学习问题?以下是分解的示例:

  • 将 客户流失率降低x%。
  • 确定有针对性的营销的新客户群。

3.数据准备

一旦我们定义了业务问题并将其分解为机器学习问题,我们就需要深入研究数据。数据理解应该明确手头的问题。它应该有助于我们制定正确的分析策略。 需要注意的关键事项是数据来源,数据质量,数据偏差等。

4.探索性数据分析

宇航员穿越宇宙的未知数。同样,数据科学家遍历数据中模式的未知数,窥探其特征的阴谋并制定未开发的模型。 探索性数据分析(EDA)是一项令人兴奋的任务。我们可以更好地理解数据,研究细微差别,发现隐藏模式,开发新功能并制定建模策略。

5.建模

在EDA之后,我们进入建模阶段。在这里,根据我们特定的机器学习问题,我们应用有用的算法,如回归,决策树,随机森林等。

6.部署和评估

最后,部署了开发的模型。他们会不断受到监控,以观察他们在现实世界中的表现并相应地进行校准。

通常,建模和部署部分仅占工作的20%。80%的工作是掌握数据,探索数据并理解数据。

二、机器学习问题类型

一般来说,机器学习有两种任务:

监督学习

监督学习是一种  机器  学习任务,其中存在定义的目标。从概念上讲,建模者将监督机器学习模型以实现特定目标。 监督学习可以进一步分为两类:

  • 回归: 回归是机器学习任务的主力。它们用于估计或预测数值变量。回归模型的几个例子可以是:
  • 下个季度潜在收入的估计是多少?
  • 我明年可以关闭多少笔交易?
  • 分类: 顾名思义,分类模型对某些东西进行分类。估计哪个桶最合适。分类模型经常用于所有类型的应用程序。分类模型的几个例子是:
  • 垃圾邮件过滤是  分类模型的流行实现。此处,根据特定特征,每个传入的电子邮件都被归类为垃圾邮件或非垃圾邮件。
  • 流失预测是分类模型的另一个重要应用。在电信公司中广泛使用的流失模型可以对给定客户是否会流失(即停止使用服务)进行分类。

无监督学习

无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何指定的目标,因此有时难以解释它们产生的结果。有许多类型的无监督学习任务。关键是:

  • 聚类:  聚类是将类似事物组合在一起的过程。客户细分使用聚类方法。
  • 协会:  协会是一种寻找经常相互匹配的产品的方法。零售市场篮子分析使用关联方法将产品捆绑在一起。
  • 链接预测:  链接预测用于查找数据项之间的连接。Facebook,亚马逊和Netflix采用的推荐引擎大量使用链接预测算法来推荐我们的朋友,购买的物品和电影。
  • 数据缩减:  数据缩减方法用于简化从许多功能到少数功能的数据集。它需要一个包含许多属性的大型数据集,并找到用较少属性表达它们的方法。

三、机器学习任务模型算法

一旦我们将业务问题分解为机器学习任务,一个或多个算法就可以解决给定的机器学习任务。 通常,模型是在多种算法上训练的。选择提供最佳结果的算法或算法集用于部署。

Azure Machine Learning具有30多种预构建算法,可用于训练机器学习模型。

猜你喜欢

转载自blog.csdn.net/weixin_39541558/article/details/81103743
今日推荐