AI算法 问题总结

线性分类器与非线性分类器的区别以及优劣

如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。
常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归
常见的非线性分类器:决策树、RF、GBDT、多层感知机

SVM两种都有(看线性核还是高斯核)

  • 线性分类器速度快、编程方便,但是可能拟合效果不会很好
  • 非线性分类器编程复杂,但是效果拟合能力强

数据挖掘和机器学习的区别

机器学习是数据挖掘的一个重要工具,但是数据挖掘不仅仅只有机器学习这一类方法,还有其他很多非机器学习的方法,比如图挖掘,频繁项挖掘等。感觉数据挖掘是从目的而言的,但是机器学习是从方法而言的。

什么是标准差、方差和协方差?它们反映了数据的什么内容?

方差(Variance):用来度量随机变量和其数学期望(即均值)之间的偏离程度。

标准差:方差开根号。

协方差:E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]衡量两个变量之间的变化方向关系。

标准差描述是样本集合的各个样本点到均值的距离分布,描述的是样本集的分散程度

在机器学习中的方差就是估计值与其期望值的统计方差。如果进行多次重复验证的过程,就会发现模型在训练集上的表现并不固定,会出现波动,这些波动越大,它的方差就越大

协方差主要用来度量两个随机变量关系,如果结果为正值,则说明两者是正相关的;结果为负值,说明两者是负相关的;如果为0,就是统计上的“相互独立”

   标准差: 描述样本的分散程度。
    方差:标准差的平方,模型预测稳定性。 
   协方差:
        结果为正值:两者正相关;
        结果为负值:两者负相关;
        如果为0:“相互独立”;

生成模型和判别模型

  1. 生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。(朴素贝叶斯)
    生成模型可以还原联合概率分布p(X,Y),并且有较快的学习收敛速度,还可以用于隐变量的学习
  2. 判别模型:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。(k近邻、决策树)
    直接面对预测,往往准确率较高,直接对数据在各种程度上的抽象,所以可以简化模型

监督和非监督的区别和各自优势?

激活函数:

Sigmoid,Tanh,ReLu, Softmax

激活函数 | 深度学习领域最常用的10个激活函数,详解数学原理及优缺点 - 云+社区 - 腾讯云 (tencent.com)

防止过拟合?

如何防止过拟合(overfitting) - 知乎 (zhihu.com)

神经网络防止过拟合的方法 - bonelee - 博客园 (cnblogs.com)

数据增强, early stopping,正则化,Dropout,权值共享,集成方法

核函数?

只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射。核函数的使用,不一定能够准确的划分,只能说使用哪个核函数,能够逼近真实的划分效果。因此特征空间的好坏对支持向量机的性能至关重要。在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式定义了这个特征空间。于是,核函数的选择成为了支持向量机的最大变数。若核函数选择不合适,则意味着映射到一个不合适的特征空间,很可能导致性能不佳。
(对预测精度有重要影响。)

特征数量多的时候适合线性核函数,因为运算速度快

当多项式阶数高时复杂度会很高,正交归一化后的数据,优先使用多项式核函数。

大多数情况下径向基核函数(高斯核函数)都有比较好的性能,不确定用哪种就用它。

隐马尔可夫模型 

特征降维方法:

主成分分析 PCA 、线性判别分析 LDA 、AutoEncoder、矩阵奇异值分解 SVD

PCA:

通过某种线性投影,将高维度的数据映射到低维的空间中,并期望再所投影的维度上数据的方差最大,以此使用较少的维度,同时保留较多原数据的维度。

LDA:

通过将训练样本投影到低维度上,使得同类别的投影点尽可能接近,异类别样本的投影点尽可能远离,(即同类点方差尽可能小,而类之间的方差尽可能大);对新样本,将其投影到低维空间,根据投影点的位置来确定其类别;
和PCA一样都是常用的降维技术,PCA从特征的协方差角度找比较好的投影,LDA更多是考虑了标注,即希望投影后不同类别之间的数据点的距离更大,同一类别的数据点更紧凑。

L1 (LASSO)和 L2 (Ridge) 的区别? 

(所有特征中只有少数特征起重要作用的情况下,选择L1更合适;
所有特征中,大部分特征都能起作用,而且起的作用很平均,选择L2更合适;L1/L2范数让模型变得稀疏,增加模型的可解析性,可用于特征选择;L2范数让模型变得更简单,防止过拟合问题;
)

preview

优化:

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法

梯度下降(Gradient Descent)小结 - 刘建平Pinard - 博客园

梯度下降本身来看的话就有随机梯度下降,批梯度下降,small batch 梯度下降三种方式

分类算法常见的评估指标?

team-learning-data-mining/Task1 赛题理解.md at master · datawhalechina/team-learning-data-mining · GitHub

损失函数 

损失函数一般有四种,平方损失函数,对数损失函数,HingeLoss0-1损失函数,绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数

机器学习算法实践:

GitHub - Jack-Cherish/Machine-Learning: 机器学习实战(Python3):kNN、决策树、贝叶斯、逻辑回归、SVM、线性回归、树回归

逻辑回归:​​​​​​机器学习系列(1)_逻辑回归初步_寒小阳-CSDN博客_逻辑回归机器学习

(直线划分和曲线划分两个数据集,数据集存储在度盘上,所以要用自己的电脑下载) 

逻辑回归知识总结_儒雅的晴天的博客-CSDN博客

决策树:

Python3《机器学习实战》学习笔记(二):决策树基础篇之让我们从相亲说起_Jack-Cui-CSDN博客_python 决策树实战Python3《机器学习实战》学习笔记(三):决策树实战篇之为自己配个隐形眼镜_Jack-Cui-CSDN博客

k近邻

Python3《机器学习实战》学习笔记(一):k-近邻算法(史诗级干货长文)_Jack-Cui-CSDN博客_python3 机器学习实战

朴素贝叶斯

机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器

机器学习实战教程(五):朴素贝叶斯之新浪新闻分类器

猜你喜欢

转载自blog.csdn.net/weixin_39915444/article/details/122246715
今日推荐