数学基础-模型准确度影响因素

我们在运用数据科学解决问题时必须清楚的理解问题、理解数据、掌握一系列方法，才能很好的解决问题。

统计学习的对象是数据，数据的类型包括数字、文字、图像、音频、视频以及他们的组合。统计学习关于数据的基本假设是同类数据具有一定的统计规律性，即同类数据具有相似的特征或者具有相同的分布特性。统计学习方法学习这种特征，将生成的模型用于数据的分类或预测。

统计学习方法三要素包括：模型（模型集合，概率模型表示为条件概率P(Y/X)、非概率模型为决策函数Y=f(X)））、策略（评价准则，损失函数：度量一次预测的好坏）、算法（模型选择）。

模型准确度影响因素：数据质量、数据科学家的水平。

1、数据质量对模型准确度的影响

训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好，其他的事情就顺理成章了。当数据量过少时容易出现训练不足的问题，当数据量过多时容易出现过训练的问题，对于一个模式的样本数据集来说，它应该尽可能的包含该模式的各个种类，而且每个种类的样本数量以及在全部数据中所占的比例对于模型建立和评价至关重要。所以我们要尽最大的努力获取尽可能全面的数据。

例如，在进行车辆故障检测时，发生故障状态较少，导致故障相关数据较少，就会存在故障建模数据不足，模型就不具备对未知故障的检测能力。如果某类故障的数据特别多，其他类故障的数据比较少会导致模型对数据少的故障检测能力较差，最好是各类别故障数据均衡。数据质量的提升依赖于车厂对长期持久运行的车辆数据的搜集。

模型训练对数据量的需求取决于模型结构和参数个数，参加点击打开链接

2、数据科学家的水平

数据科学家的水平体现在领域知识和数据分析能力，数据分析能力包括：数据预处理、特征选择、模型选择、模型调参、模型验证，是数据工程师基于数据和目标进行的一系列工作，这就是普通的数据工程师跟大师级数据科学家的差距所在。成为大师级数据科学家是所有从事数据科学工作的人们的梦想。

2.1 领域知识

领域知识可以帮助我们更好的处理数据，建立更好的特征集，对于提升建模的效率和效果至关重要，丰富的领域知识是假设生成的基础，有关假设生成的意义请参考点击打开链接

2.2 数据分析能力

（1）数据预处理

数据是多种多样的，包括数字、文本、图像、音频、视频等，不同的数据处理方法不同，数字类型数据包括分类型、数值型。数据预处理包括数据异常处理和数据变换。数据中存在三大类异常，包括错误数据、空缺值、离群点。不同类型数据的处理方法将在后续的文章中介绍。

（2）特征工程

特征工程是从现有数据中提取更多信息，特征工程包括特征转换、特征衍生、特征选择。特征工程将在后续的文章中介绍。

（3）模型选择

模型选择建立在对问题的理解、对数据的理解、对各种模型的理解的基础之上，结合经验和不断的尝试，以选择最适合的模型获得更高的准确率。模型选择将在后续的文章中介绍。

（4）模型调参

机器学习算法是由参数驱动的。这些参数对学习的结果有明显影响。参数调整的目的是为每个参数寻找最优值，以改善模型正确率。要调整这些参数，必须对它们的意义和各自的影响有所了解，遍历参数集合，观察训练过程输出，寻找最优参数。模型调参将在后续的文章中介绍。

（5）模型评价

使用交叉验证的方式来检验模型的准确度，交叉验证将数据集分为训练集、验证集、测试集，各类模型有其相应的评价指标。模型评价将在后续的文章中介绍。

写博客的目的是学习的总结和知识的共享，如有侵权，请与我联系，我将尽快处理

数学基础-模型准确度影响因素

猜你喜欢