ai算法分类

大类/特点	小类	入参、超参数及选择建议	样本数经验公式
朴素贝叶斯/假定特征独立	高斯模型: 有些特征可能是连续型变量	无超参数。特征维数较高时，基于分布熵最小原则的特征简约，可以有效的降维，缩减问题规模，减少训练时间，同时可以突出主要因素，忽略次要因素	随机取测试样本个数，获得的精度几乎相等。样本数<10:1个样本数10-100：3个等等
	多项式模型：常用于文本分类，特征是单词，值是单词的出现次数
	伯努利模型：每个特征的取值是布尔型
KNN/适合于对于类域的交叉或重叠较多的待分样本集，对少数类分类精度不高	Brute Force：（N样本，D特征）效率低，时间复杂度O[DN]	需要主观决定最近邻参数K。k的值偏小，容易发生过拟合；如果选择较大的K值，与输入实例较远的训练实例也会对预测起作用，产生错误。应用中，k一般取一个比较小的数值，通常采用交叉验证法来取选择最优的K值。暴力方法的算法效率与数据结构和K值，关系不大。基于树的方法的算法，当数据是稀疏的，且维度低的时候，算法速度快。随着K值的增加，算法时间效率降低。当K值与N相当，暴力方法比基于树的方法更有效。	样本的距离是根据样本所有特征计算。在这些特征中，有些特征与分类是强相关，有些特征与分类弱相关，还有一些特征不相关。这样近邻的距离会被大量不相关特征所支配。需对特征进行选择，设置权值。
	Ball Tree：（N样本，D特征）,时间复杂度O[D×logN]
	K-D tree：（N样本，D特征）时间复杂度当D<20,O[D×logN]，D>20,O[DN]
神经网络	BP	学习率、冲量、层数、动量一般取0.5-1，学习率一般取0-0.2，	10%的误差所需样本数量应该是输出层参数数量10倍
	RBF：三层网络，隐层中的转换函数是局部响应的高斯函数。比BP网络更多的隐含层神经元。广义RBF网络只要求隐藏层神经元个数大于输入层神经元个数。正则的RBF网络隐藏层神经元个数等于输入样本个数。	参数涉及：各基函数的数据中心及扩展常数、输出节点的权值。径向基函数的扩展常数，它反应了函数图像的宽度，σ越小，宽度越窄，函数越具有选择性。根据经验选定均匀分布的M个中心, 其间距为d，可选取高斯核函数的σ=d/sqrt(2*M)。
	CNN：解决图像问题，可用把它看作特征提取层，放在输入层上，最后用MLP 做分类。
	RNN：解决时间序列问题，用来提取时间序列信息，放在特征提取层（如CNN）之后。
SVM
决策树
逻辑回归

猜你喜欢