机器学习需要多少数据

从数据搜集到机器学习的各个阶段,我们都面临着一个问题,就是到底需要多少数据来完成我们的分析任务。

数据搜集阶段
由于数据的搜集是高投入的,所以在开始数据搜集之前,业务负责人会向数据分析师抛出一些问题,例如“你需要什么样的数据?”,“你需要多少数据?”

数据分析阶段
在数据分析阶段,数据分析师会拿到一批数据,这时面临的问题是,哪些数据是和分析目标相关的?数据量是否够用?如果数据量够用,用多少数据进行分析呢?如果数据量不够,采样数据增强的方法是否可以解决数据量不足的问题?
机器学习中你所需要的数据数量和很多因素有关,你要解决问题的复杂程度,学习算法的复杂程度。上述问题可以总结为数据分析需要的数据变量种类、数据粒度、数据量的需求。

1、需要的数据变量种类

可以运用领域的专业知识明确与分析目的相关的变量,即分析必须的变量有哪些,对于那些不明确是否必须的变量,如果条件允许可以搜集,也可以通过学习别人的经验进行类比。变量对于解决问题有帮助,而不是完全无关或者关联性极低的数据

2、需要的数据粒度

数据的粒度即数据的采样频率,数据的采样频率越大,数据量越大。一般来说,我们追求尽量细分的数据,因为可以通过聚合来实现从具体数据到宏观数据的还原,但反之则不可得。数据收集的第一个重点是搞清楚,在什么粒度可以解决我们的问题,而不是盲目的收集一大堆数据,或者收集过于抽象的数据。

3、需要的数据量

数据量指的是有效数据量,即样本间的重复性比较低,不会存在大量的重复样本。

统计显著
显著性可以表征采集样本与总体的偏差,样本量的大小不取决于总体的多少,而取决于(1) 研究对象的变动程度;(2) 所要求或允许的误差大小;(3) 要求推断的置信程度。满足一定显著度时,统计结果才有意义。

数据量与特征量的关系
当特征数量较多时,训练样本就会越稀疏,会产生维数灾难问题,参考链接
机器学习的维度灾难

数据量与模型选择
模型对数据量的需求取决于模型的参数个数,模型分类机制,分类模型要求至少每个类别都有数据,数据均衡。经验说法是训练数据量至少是模型参数的10倍。Sklearn中模型选择见下图。
在这里插入图片描述
4、评估数据集大小和模型表现
在实践中,需要评估不同大小数据集下模型的表现,通过绘制不同大小数据集与模型表现的关系,找到模型最适合的数据集规模。

参考链接
http://www.eeboard.com/news/jiqixuexi-3/
https://blog.csdn.net/sparkapi/article/details/79754041

猜你喜欢

转载自blog.csdn.net/weixin_37801695/article/details/84962203