十个例子，教你用统计学方法高效完成机器学习项目（下）【楚才国科】

在这里插入图片描述
五、数据准备：

数据一般不会直接拿来建模。为了改变数据的形状或结构，使它更适用于选定的问题架构或学习算法，需要对数据进行必要的转化。

数据准备也会用到统计模型，例如：

1、缩放。例如标准化和规范化。

2、编码。例如整数编码和独热编码。

3、变换。例如 Box-Cox 变换那样的次方转换。

六、模型评估：

预测模型问题的一个重要部分是对学习方法进行评估。

对模型的能力的评估主要是对未经过训练的数据进行预测。

通常，训练过程和评估预测模型的规划过程叫作实验设计，这是统计方法的一个子领域。

1、实验设计。设计系统化的实验来比较独立的变量对结果影响的方法，比如对比预测的精度来选择机器学习算法。

作为实现实验设计的一部分，为了对可利用的数据做最合理的利用同时也为了评估模型的能力，统计学方法被用来重采样一个数据集。这两个目的代表了统计模型的子领域。

2、重采样方法。为了训练和评估预测模型而将数据集系统化分出子集的方法。
在这里插入图片描述
七、模型配置：

给定的机器学习算法通常有一套使学习方法能够适应特定问题的超参数。

超参数的配置通常是经验性的，而不是由分析得出的。这需要大量的实验，以评估不同超参数值对模型性能的影响。

两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较，它们是：

1、统计假设检验。根据对结果的假设或期望值，对观察到的结果出现概率进行量化的方法。（提出使用临界值和 p 值）

2、估计统计。使用置信区间去量化一个结果的不确定性的方法。

八、模型选择：

给定一个预测建模问题，在众多机器学习算法中可能有一个算法最适合该问题。选择一种方法作为解决方案的过程称为模型选择。

这可能涉及到项目参与者的自身条件以及用于评估问题的方法的估计技能能否对其给出详细解释。

与模型配置一样，可以使用两类统计方法来解释不同模型的估计技能，并用于模型选择。他们是：

1、统计假设检验。根据对结果的假设或期望值，对观察到的结果出现概率进行量化的方法。（提出使用临界值和 p 值）

2、估计统计。使用置信区间去量化一个结果的不确定性的方法。

九、模型表示：

一旦最终模型训练完成，可以在部署其对真实数据进行预测前先展示给相关人员查看。展示最终模型的一个环节包括展示模型的估计技能。

估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。

1、估计统计。使用置信区间去量化一个结果的不确定性的方法。

十、模型预测：

最后，我们可以使用最终的模型来对我们不知道其输出的新数据进行预测。

作为预测的一部分，量化预测的置信度非常重要。

就像模型表示的过程一样，我们可以使用估计统计领域的方法来量化这种不确定性，例如置信区间和预测区间。

1、估计统计。使用置信区间去量化一个结果的不确定性的方法。
在这里插入图片描述
总结：

1、探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。

2、统计学方法可以用来清洗和准备建模要用的数据。

3、统计假设检验和估计统计可以帮助进行模型选择，并展示最终模型的技能和预测结果。