ai算法分类

大类/特点

小类

入参、超参数及选择建议

样本数经验公式

朴素贝叶斯/假定特征独立

高斯模型: 有些特征可能是连续型变量

无超参数。特征维数较高时,基于分布熵最小原则的特征简约,可以有效的降维,缩减问题规模,减少训练时间,同时可以突出主要因素,忽略次要因素

随机取测试样本个数,获得的精度几乎相等。

样本数<10:1

样本数10-100:3个

等等

多项式模型:常用于文本分类,特征是单词,值是单词的出现次数

伯努利模型:每个特征的取值是布尔型

KNN/适合于对于类域的交叉或重叠较多的待分样本集,对少数类分类精度不高

Brute Force:(N样本,D特征)效率低,时间复杂度O[DN]

需要主观决定最近邻参数K。k的值偏小,容易发生过拟合;如果选择较大的K值,与输入实例较远的训练实例也会对预测起作用,产生错误。应用中,k一般取一个比较小的数值,通常采用交叉验证法来取选择最优的K值。

暴力方法的算法效率与数据结构和K值,关系不大。基于树的方法的算法,当数据是稀疏的,且维度低的时候,算法速度快。随着K值的增加,算法时间效率降低。当K值与N相当,暴力方法比基于树的方法更有效。

样本的距离是根据样本所有特征计算。在这些特征中,有些特征与分类是强相关,有些特征与分类弱相关,还有一些特征不相关。这样近邻的距离会被大量不相关特征所支配。需对特征进行选择,设置权值。

Ball Tree:(N样本,D特征),时间复杂度O[D×logN]

K-D tree:(N样本,D特征)时间复杂度当D<20,O[D×logN],D>20,O[DN]

神经网络

BP

学习率、冲量、层数、动量一般取0.5-1,学习率一般取0-0.2,

10%的误差所需样本数量应该是输出层参数数量10

RBF:三层网络,隐层中的转换函数是局部响应的高斯函数。比BP网络更多的隐含层神经元。广义RBF网络只要求隐藏层神经元个数大于输入层神经元个数。正则的RBF网络隐藏层神经元个数等于输入样本个数。

参数涉及:各基函数的数据中心及扩展常数、输出节点的权值。径向基函数的扩展常数,它反应了函数图像的宽度,σ越小,宽度越窄,函数越具有选择性。根据经验选定均匀分布的M个中心, 其间距为d,可选取高斯核函数的σ=d/sqrt(2*M)。

CNN:解决图像问题,可用把它看作特征提取层,放在输入层上,最后用MLP 做分类。

RNN:解决时间序列问题,用来提取时间序列信息,放在特征提取层(如CNN)之后。

SVM

决策树

逻辑回归

猜你喜欢

转载自blog.csdn.net/b0207191/article/details/80733096
今日推荐