机器学习+特征工程vs深度学习—如何选择

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/songyunli1111/article/details/82937931

对于数据挖掘和处理类的问题,使用一般的机器学习方法,需要提前做大量的特征工程工作,而且特征工程的好坏会在很大程度上决定最后效果的优劣(也就是常说的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已)。

使用深度学习的话,特征工程就没那么重要了,特征只需要做些预处理就可以了,因为它可以自动完成传统机器学习算法中需要特征工程才能实现的任务,特别是在图像和声音数据的处理中更是如此,但模型结构会比较复杂,训练较为麻烦。另一个方面,虽然深度学习让我们可以省去特征工程这一较为繁琐的过程,但也让我们失去了对特征的认识,如特征的重要性等

如何选择或衡量这两种方法:

第一看数据量,比如训练数据量达到百万以上,深度学习的方法会比较有优势。如果样本集不是大样本,那么特征工程加传统的机器学习方法使用起来泛化能力会更好。

第二看是否需要对结果有较强的解释性和可调节性,解释性是说我们能够了解到产生该输出结果的原因,这样我们能够知道特征的重要程度,并在出错时能够对错误原因进行分析。可调节性是指在出错或有特征的增删时,能够方便的对原模型进行修正以满足新的要求。在这一方面,一般的机器学习方法有一定的优势。

各自的优势领域:

深度学习:图像处理,自然语言处理等,因为图像、语言、文本都较难进行特征工程,交给深度学习是一个很好的选择。

机器学习:金融风控,量化分析,推荐系统,广告预测等,因为需要较好的可解释性,会更多的采用传统机器学习方法。

以上的领域,机器学习和深度学习都可以做,但因为各自的特点和要求,因此会有相对优势的偏向。

另外,详细了解特征工程这里推荐一位博主的博客,解释的非常详细:

特征工程之特征选择

特征工程之特征表达

特征工程之特征预处理

猜你喜欢

转载自blog.csdn.net/songyunli1111/article/details/82937931
今日推荐