AI算法问题总结

线性分类器与非线性分类器的区别以及优劣

如果模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器，否则不是。
常见的线性分类器有：LR,贝叶斯分类，单层感知机、线性回归
常见的非线性分类器：决策树、RF、GBDT、多层感知机

SVM两种都有(看线性核还是高斯核)

线性分类器速度快、编程方便，但是可能拟合效果不会很好
非线性分类器编程复杂，但是效果拟合能力强

数据挖掘和机器学习的区别

机器学习是数据挖掘的一个重要工具，但是数据挖掘不仅仅只有机器学习这一类方法，还有其他很多非机器学习的方法，比如图挖掘，频繁项挖掘等。感觉数据挖掘是从目的而言的，但是机器学习是从方法而言的。

什么是标准差、方差和协方差？它们反映了数据的什么内容？

方差（Variance）：用来度量随机变量和其数学期望（即均值）之间的偏离程度。

标准差：方差开根号。

协方差：E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]衡量两个变量之间的变化方向关系。

标准差描述是样本集合的各个样本点到均值的距离分布，描述的是样本集的分散程度

在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验证的过程，就会发现模型在训练集上的表现并不固定，会出现波动，这些波动越大，它的方差就越大

协方差主要用来度量两个随机变量关系，如果结果为正值，则说明两者是正相关的；结果为负值，说明两者是负相关的；如果为0，就是统计上的“相互独立”

   标准差: 描述样本的分散程度。
    方差：标准差的平方，模型预测稳定性。 
   协方差:
        结果为正值：两者正相关；
        结果为负值：两者负相关；
        如果为0：“相互独立”；

生成模型和判别模型

生成模型：由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。（朴素贝叶斯）
生成模型可以还原联合概率分布p(X,Y)，并且有较快的学习收敛速度，还可以用于隐变量的学习
判别模型：由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。（k近邻、决策树）
直接面对预测，往往准确率较高，直接对数据在各种程度上的抽象，所以可以简化模型

监督和非监督的区别和各自优势？

激活函数：

Sigmoid，Tanh，ReLu， Softmax

激活函数 | 深度学习领域最常用的10个激活函数，详解数学原理及优缺点 - 云+社区 - 腾讯云 (tencent.com)

防止过拟合？

如何防止过拟合（overfitting） - 知乎 (zhihu.com)

神经网络防止过拟合的方法 - bonelee - 博客园 (cnblogs.com)

数据增强， early stopping，正则化，Dropout，权值共享，集成方法

核函数？

只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。事实上，对于一个半正定核矩阵，总能找到一个与之对应的映射。核函数的使用，不一定能够准确的划分，只能说使用哪个核函数，能够逼近真实的划分效果。因此特征空间的好坏对支持向量机的性能至关重要。在不知道特征映射的形式时，我们并不知道什么样的核函数是合适的，而核函数也仅是隐式定义了这个特征空间。于是，核函数的选择成为了支持向量机的最大变数。若核函数选择不合适，则意味着映射到一个不合适的特征空间，很可能导致性能不佳。
（对预测精度有重要影响。）

特征数量多的时候适合线性核函数，因为运算速度快

当多项式阶数高时复杂度会很高，正交归一化后的数据，优先使用多项式核函数。

大多数情况下径向基核函数（高斯核函数）都有比较好的性能，不确定用哪种就用它。

隐马尔可夫模型

特征降维方法：

主成分分析 PCA 、线性判别分析 LDA 、AutoEncoder、矩阵奇异值分解 SVD

PCA:

通过某种线性投影，将高维度的数据映射到低维的空间中，并期望再所投影的维度上数据的方差最大，以此使用较少的维度，同时保留较多原数据的维度。

LDA:

通过将训练样本投影到低维度上，使得同类别的投影点尽可能接近，异类别样本的投影点尽可能远离，（即同类点方差尽可能小，而类之间的方差尽可能大）；对新样本，将其投影到低维空间，根据投影点的位置来确定其类别；

和PCA一样都是常用的降维技术，PCA从特征的协方差角度找比较好的投影，LDA更多是考虑了标注，即希望投影后不同类别之间的数据点的距离更大，同一类别的数据点更紧凑。

L1 （LASSO）和 L2 (Ridge) 的区别？

（所有特征中只有少数特征起重要作用的情况下，选择L1更合适；
所有特征中，大部分特征都能起作用，而且起的作用很平均，选择L2更合适；L1/L2范数让模型变得稀疏，增加模型的可解析性，可用于特征选择；L2范数让模型变得更简单，防止过拟合问题；
）

preview

优化：

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。

梯度下降（Gradient Descent）小结 - 刘建平Pinard - 博客园

梯度下降本身来看的话就有随机梯度下降，批梯度下降，small batch 梯度下降三种方式

分类算法常见的评估指标？

team-learning-data-mining/Task1 赛题理解.md at master · datawhalechina/team-learning-data-mining · GitHub

损失函数

损失函数一般有四种，平方损失函数，对数损失函数，HingeLoss0-1损失函数，绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数

机器学习算法实践：

GitHub - Jack-Cherish/Machine-Learning: 机器学习实战（Python3）：kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归

逻辑回归：机器学习系列(1)_逻辑回归初步_寒小阳-CSDN博客_逻辑回归机器学习

（直线划分和曲线划分两个数据集，数据集存储在度盘上，所以要用自己的电脑下载）

逻辑回归知识总结_儒雅的晴天的博客-CSDN博客

决策树：

Python3《机器学习实战》学习笔记（二）：决策树基础篇之让我们从相亲说起_Jack-Cui-CSDN博客_python 决策树实战 Python3《机器学习实战》学习笔记（三）：决策树实战篇之为自己配个隐形眼镜_Jack-Cui-CSDN博客

k近邻

Python3《机器学习实战》学习笔记（一）：k-近邻算法(史诗级干货长文)_Jack-Cui-CSDN博客_python3 机器学习实战

朴素贝叶斯

机器学习实战教程（四）：朴素贝叶斯基础篇之言论过滤器

机器学习实战教程（五）：朴素贝叶斯之新浪新闻分类器

AI算法 问题总结

猜你喜欢