一、机器学习的主要任务就是分类和回归(监督学习)
分类:将实例数据划分到合适的分类中
回归:主要用于预测数值型数据
监督学习:这类算法必须知道预测什么,即目标变量的分类信息。
- 目的:预测目标变量的值。
- 确定目标变量的类型:如果目标变量是离散型,可选择分类算法, 如果目标变量是连续型,可选择回归算法。
- 数据问题:对特征值、数据进行分析。
无监督学习:数据没有类别信息,也不会给定目标值
- 目的:不想预测目标变量的值
- 确定目标变量的类型:分析是否需要将数据划分为离散的组。如果这是唯一的要求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
二、开发机器学习应用程序的步骤:
- 收集数据。
- 准备输入数据。
确保数据格式符合要求,为机器学习准备特定的数据格式
- 分析输入数据。
查看数据,确保数据集中没有垃圾数据。
- 训练算法。将格式化数据输入到算法,从中抽取知识和信息。如果使用无监督学习算法,由于不存在目标变量值,故而也不 需要训练算法,所有与算法相关的内容都集中在第五步。
- 测试算法。
实际使用第4步得到的知识信息。为了评估算法,必须测试算法 工作的效果。
对于监督学习,必须已知用于评估算法的目标变量值;
对于无监督学习,也必须用其他的评测手段来检验算法的成功率。
如果对输出结果不满意,则返回第4步。
- 使用算法。
将机器学习算法转化为应用程序,执行实际任务。