【数据分析】————面试总结

在这里插入图片描述

目录

1、T检验原理

2、 统计学第一类错误和第二类错误

3、机器学习算法了解吗,说说你了解的回归算法,并说出他们的区别

4、逻辑回归算法的原理

5、中心极限定理

6、你平时做过哪些预测项目呢,简要介绍一下

7、随机森林的原理

8、特征筛选的方法有哪些

9、做过AB测试吗,谈谈原理

10、SQL排序窗口函数的区别

11、谈谈 RFM模型

12、数据分析方法有哪些

13、GMV突然下降,分析原因

14、怎么度量用户活跃

15、上线了一个新功能,怎么建立指标评估功能上线的效果

16、直播领域怎么搭建指标体系

17、有做过用户分层,建立用户画像相关的项目吗,怎么做的,结论是什么

18、线性回归和逻辑回归的区别

19、逻辑回归为什么使用交叉熵作为损失函数

20、什么是因果推断

21、假设检验的原理,p值的含义,Z检验和T检验的区别

22、XGBoost的损失函数

23、决策树算法有哪些,有什么区别

24、决策树怎么解决过拟合问题

25、GBDT和随机森林的区别

26、L1正则化和L2正则化的区别

27、线性回归的基本假设,怎么解决多重共线性问题

28、信息增益和基尼系数的公式

29、最小二乘法和极大似然估计有什么区别

30、回归和分类模型的评价指标都有哪些


1、T检验原理

t检验(t-test)是一种统计分析方法,用于比较两个样本的均值是否有显著差异。

t检验的原理是将两个样本的均值与标准误差进行比较,以确定它们之间的显著性差异。标准误差是指样本平均值与总体平均值之间的差异,它代表了抽样误差的大小。当样本大小较大时,标准误差将趋近于总体标准差,t检验也将趋近于正态分布。

具体来说,t检验的步骤如下:

  1. 假设两个样本的方差相等。
  2. 计算两个样本的均值和标准误差。
  3. 计算t值,即t = (样本1的均值 - 样本2的均值) / 标准误差。
  4. 根据自由度和置信水平计算t分布的临界值。
  5. 比较t值与临界值,如果t值大于临界值,则拒绝零假设,即认为两个样本均值不相等。

t检验可以用于比较两个样本的均值,也可以用于比较一个样本的均值与已知的总体均值是否有显著差异。它是一种常用的统计分析方法,适用于许多不同领域的数据分析。

2、 统计学第一类错误和第二类错误

统计学中,它们指的是在假设检验过程中可能会犯的错误。

第一类错误是指在零假设为真的情况下,拒绝了零假设,即错误地认为存在显著差异。通俗来说,就是错误地拒绝了真实情况下的无差异性,也称为“α错误”或“假阳性”。

第二类错误是指在零假设为假的情况下,接受了零假设,即错误地认为不存在显著差异。通俗来说,就是错误地接受了真实情况下的有差异性,也称为“β错误”或“假阴性”。

在假设检验中,可以通过设定显著性水平α(通常为0.05或0.01)来控制第一类错误的概率,但是这样可能会增加第二类错误的概率,因此需要根据具体情况权衡两种错误类型的影响,并选择合适的显著性水平。

3、机器学习算法了解吗,说说你了解的回归算法,并说出他们的区别

(1)机器学习算法是人工智能领域中的一种算法,它使用数学和统计学方法来使计算机从数据中学习并改进预测或决策的能力,而无需明确地进行编程。

(2)回归算法是机器学习中的一种监督学习方法,它用于建立输入变量(自变量)与输出变量(因变量)之间的关系模型。回归算法可以分为线性回归和非线性回归。

线性回归算法:最基本的线性回归模型,它假设自变量和因变量之间的关系是线性的。简单线性回归模型可以用于只有一个自变量的情况。多元线性回归模型可以用于多个自变量的情况。线性回归模型的目标是找到最佳拟合直线(或平面或超平面),使预测误差最小化。

非线性回归算法:非线性回归模型假设自变量和因变量之间的关系是非线性的。例如,多项式回归模型将自变量的多项式组合作为新的自变量,以捕捉非线性关系。其他非线性回归算法包括决策树回归、神经网络回归和支持向量回归等。

线性回归和非线性回归之间的主要区别在于它们所建立的关系模型的形式不同。线性回归模型建立的是线性关系,而非线性回归模型建立的是非线性关系。在数据中存在着线性关系的情况下,线性回归模型是更好的选择,而在数据中存在非线性关系的情况下,非线性回归模型是更好的选择。

另外,回归算法还可以根据使用的技术进行分类。例如,岭回归、Lasso回归和弹性网络回归等是一种正则化回归方法,它们通过在模型的损失函数中添加正则项来控制模型的复杂度。基于树的回归方法(例如决策树回归和随机森林回归)是一种集成学习方法,它们通过结合多个基础回归模型来提高预测性能。

4、逻辑回归算法的原理

逻辑回归是一种常见的分类算法,它是一种广义线性模型,通过对输入特征进行线性组合和非线性变换,将输入数据映射为概率输出,用于分类任务。

逻辑回归的原理可以概括为以下步骤:

  1. 准备数据集:包括输入特征和对应的分类标签。
  2. 设计模型:逻辑回归模型假设输入特征与输出之间存在线性关系,并通过一个sigmoid函数将线性输出映射为概率值。
  3. 确定损失函数:损失函数用于评估模型预测结果与实际标签之间的差异。对于逻辑回归,通常使用交叉熵损失函数。
  4. 选择优化算法:为了找到最优模型参数,需要使用优化算法对损失函数进行最小化。常用的优化算法包括梯度下降、牛顿法等。
  5. 训练模型:使用训练数据对模型参数进行更新,直到损失函数达到最小值,得到最优的模型参数。
  6. 模型预测:使用训练好的模型对新的数据进行分类预测,输出分类概率值。

5、中心极限定理

从任意一个均值为μ,方差为δ2,的总体中随机抽取一个样本容量为n的样本,当n足够大时,样本均值近似服从均值为μ、方差为δ2/n的正态分布。这表明,只要样本容量足够大,那么未知总体的样本特征值就近似服从正态分布。

6、你平时做过哪些预测项目呢,简要介绍一下

1.自然语言处理:自然语言处理是一项旨在解决人类语言与计算机之间交互的任务,涉及到文本分类、情感分析、机器翻译和对话系统等方面。自然语言处理使用深度学习算法和语言模型,对大量的语料库和语言规则进行学习和建模,以实现更准确和自然的语言交互。

2.股市预测:股市预测是一项非常具有挑战性的任务,因为股票价格受到众多因素的影响,如公司财务表现、行业趋势、宏观经济指标等。预测股市价格需要对这些因素进行深入分析和研究,并使用机器学习和统计方法来预测未来的趋势。

3.疾病预测:疾病预测是一项旨在预测人类健康状况的任务,涉及到医疗图像、生理数据、遗传信息和临床历史记录等方面。疾病预测使用机器学习算法和深度学习模型,对大量数据进行分析和建模,预测未来疾病的风险和发展趋势。

7、随机森林的原理

随机森林(Random Forest)是一种基于集成学习(Ensemble Learning)的机器学习算法,它是由多个决策树组成的模型。每个决策树都是独立构建的,通过对数据的随机采样和随机特征选择来增加模型的多样性。最终的预测结果是由所有决策树的结果投票或平均得出的

随机森林算法的原理可以概括为以下几个步骤:

  1. 随机选择一个样本集,以及一个特征子集。
  2. 使用这个样本集和特征子集来训练一个决策树模型。
  3. 重复上述步骤,构建多个决策树模型。
  4. 对于一个新的样本数据,将其输入到每个决策树中进行预测,然后根据每个决策树的结果进行投票或平均,得到最终的预测结果。

在随机森林中,样本集和特征子集的随机选择是通过引入随机性来增加模型的多样性的。通过对样本和特征的随机选择,可以使得每个决策树都学习到不同的特征和规律,从而使得随机森林的泛化性能更好。

此外,随机森林还可以用于特征选择和异常值检测等任务,因为它可以通过评估每个特征的重要性来帮助选择最重要的特征。

8、特征筛选的方法有哪些

特征筛选是指从原始特征集合中选择最优的特征子集,以便构建更好的机器学习模型。以下是一些常用的特征筛选方法:

1.方差选择:通过计算特征的方差来选择最重要的特征。如果一个特征的方差很小,说明它的取值变化不大,不太有用,可删除。

2.相关性选择:通过计算特征之间的相关系数,选择与目标变量相关性最强的特征。可以使用Pearson相关系数、Spearman相关系数等方法进行计算。

3.卡方检验选择:使用卡方检验来选择最相关的特征。卡方检验是用于检验两个变量是否相关的一种统计方法,可以检验特征与目标变量之间的相关性。

4.互信息选择:使用互信息来选择最相关的特征。互信息是一种用于度量两个变量之间相关性的方法,可以用来衡量特征与目标变量之间的相关性。

5.L1正则化:使用L1正则化来选择最优的特征。L1正则化可以将不重要的特征的系数压缩成0,从而实现特征选择的效果。

6.基于树的方法:使用基于树的方法来选择最优的特征。比如使用决策树、随机森林等算法,通过评估每个特征的重要性来选择最重要的特征。

7.嵌入式方法:将特征选择作为机器学习模型的一部分,通过正则化、特征惩罚等方法来选择最优的特征。例如Lasso回归、Ridge回归等。

需要注意的是,特征筛选方法并不是万能的,不同的数据集和机器学习模型可能需要不同的特征选择方法。因此,在使用特征筛选方法之前,需要仔细地分析数据集和模型,并根据具体情况选择最适合的特征选择方法。

9、做过AB测试吗,谈谈原理

AB测试是一种常用的实验设计方法,用于比较两种或多种不同的策略、产品或页面等,以确定哪种策略、产品或页面更有效。AB测试的原理可以简单概括为以下几个步骤:

1.制定实验目标:首先需要明确实验的目标,例如提高网站的转化率、增加产品的销量等。

2.策划实验方案:确定实验的设计和方案,例如选择要测试的变量、设定测试时间和样本大小等。

3.随机分组:将参与实验的样本随机分成两个或多个组,每个组接受不同的策略、产品或页面。

4.实施实验:分别在不同的组中实施不同的策略、产品或页面,并记录实验数据。

5.数据分析:统计并分析实验数据,比较不同组之间的差异,确定哪种策略、产品或页面更有效。

6.结果判断:根据数据分析的结果判断实验的有效性,并根据实验结果进行优化和调整。

AB测试的关键是随机分组和控制变量。随机分组可以消除实验结果的偏差,控制变量可以保证实验的准确性。在实施实验时,需要尽量保证两个或多个组的样本大小、实验环境、实验时间等条件相同,以避免干扰实验结果的其他因素。

AB测试是一种有力的工具,可以帮助企业或机构确定最优的策略、产品或页面等,提高业务效率和效益。但需要注意的是,AB测试并不能完全代表真实的市场情况,实验结果需要经过多次验证和分析,才能得出可靠的结论。

10、SQL排序窗口函数的区别

SQL排序窗口函数是一种用于排序和分组计算的高级SQL函数,常用于对数据库中的数据进行复杂的统计和分析。与传统的排序函数不同,排序窗口函数可以对查询结果进行分组排序,同时保留原始数据的完整性,不会改变查询结果的行数。

SQL排序窗口函数可以分为三种类型:排序函数、聚合函数和带偏移量的函数。它们的区别如下:

1.排序函数:排序函数主要用于对查询结果进行排序,可以根据单个或多个列进行排序,并可以指定升序或降序排列。常用的排序函数包括ROW_NUMBER、RANK、DENSE_RANK等。它们的区别在于生成排序值的方式和排序规则的不同。

2.聚合函数:聚合函数主要用于对查询结果进行聚合计算,可以对分组数据进行计算,例如求平均值、求总和等。常用的聚合函数包括SUM、AVG、COUNT等。与传统的聚合函数不同,排序窗口函数可以在聚合函数中使用OVER子句,指定排序方式和排序范围。

3.带偏移量的函数:带偏移量的函数主要用于指定排序窗口函数在排序结果中的偏移量。例如,使用LEAD函数可以获取指定列中当前行后面的值,使用LAG函数可以获取指定列中当前行前面的值。这些函数可以指定偏移量和默认值,并可以用于计算增长率、比率等。

11、谈谈 RFM模型

RFM模型是一种用于客户细分和评估的经典模型,通常用于电子商务、零售业等领域中的客户关系管理。RFM模型将客户按照其购买行为的时间、频率和金额等指标进行分类,从而可以更好地了解客户的需求和行为,提高客户满意度和忠诚度。

RFM模型的核心是将客户按照三个指标进行划分,分别是:

Recency (最近一次购买时间):客户最近一次购买的时间距离当前时间的时间差。一般来说,距离当前时间越近的客户越有可能再次购买。

Frequency (购买频率)客户在一段时间内购买的次数。购买次数越多的客户,通常也越有可能再次购买。

Monetary (购买金额)客户在一段时间内购买的金额。购买金额越大的客户,通常也越有可能再次购买。

在RFM模型中,通常将这三个指标分别按照一定的规则进行打分,例如将Recency指标按照时间差划分为5个等级(1-5),将Frequency指标按照购买次数划分为5个等级(1-5),将Monetary指标按照购买金额划分为5个等级(1-5)。然后,将客户的得分相加,可以得到一个综合的RFM得分,用于对客户进行分类和分析。

根据RFM模型的分类结果,可以将客户分为不同的群体,例如高价值客户、潜在客户、流失客户等。然后,可以针对不同的客户群体,制定不同的营销策略,以提高客户满意度和忠诚度。

总之,RFM模型是一种简单而有效的客户细分和评估方法,可以帮助企业更好地了解客户需求和行为,从而优化营销策略,提高客户满意度和忠诚度。

12、数据分析方法有哪些

数据分析是一种基于数据的科学方法,通过收集、处理、分析和解释数据,从中提取有用的信息和知识。数据分析方法主要包括以下几种:

1.描述性分析:通过对数据的统计描述和可视化呈现,对数据的特征和分布进行分析。常用的描述性分析方法包括数据的平均数、中位数、方差、标准差等。

2.探索性分析:通过对数据的探索和发现,发现数据之间的关系和规律。常用的探索性分析方法包括散点图、箱线图、直方图等。

3.预测性分析:通过对历史数据的分析和建模,预测未来的趋势和结果。常用的预测性分析方法包括回归分析、时间序列分析等。

4.因果分析:通过分析不同变量之间的因果关系,确定影响某一结果的主要因素。常用的因果分析方法包括实验设计、因果推断等。

5.聚类分析:通过对数据进行聚类,将相似的数据分为一组,不同的数据分为不同的组。常用的聚类分析方法包括K-means聚类、层次聚类等。

6.关联分析:通过对数据之间的关联关系进行分析,发现数据之间的关联和规律。常用的关联分析方法包括关联规则分析、协同过滤等。

以上方法并不是绝对独立的,很多情况下需要将不同的方法结合使用,以达到更好的分析效果。

13、GMV突然下降,分析原因

GMV(Gross Merchandise Volume,总交易额)突然下降可能由多种原因引起,下面列出一些常见的原因:

1.季节性因素:某些行业或产品的销售量在不同的季节性高峰期有显著差异,如果处于淡季,GMV可能会下降。

2.竞争对手的出现:竞争对手的进入可能会影响到公司的GMV,特别是对于新进入市场的公司。

3.营销策略不当:公司的营销策略是否能够吸引更多的消费者也是影响GMV的一个重要因素。如果公司的营销策略不够吸引消费者,GMV可能会下降。

4.产品质量问题:产品质量不良或有缺陷会导致消费者流失,从而降低GMV。

5.物流和服务问题:消费者对物流和售后服务的要求越来越高,如果公司的物流和服务不能满足消费者需求,可能会导致消费者流失,进而降低GMV。

6.市场环境变化:市场环境的变化可能会对GMV产生影响。例如,政策、经济、行业等因素的变化都可能导致GMV出现波动。

针对以上可能的原因,可以进行如下分析:

1.观察GMV下降的时间段和趋势,查看是否存在季节性因素的影响。

2.对市场竞争情况进行调查和分析,查看是否有竞争对手进入导致GMV下降。

3.分析公司的营销策略是否存在问题,例如是否宣传不足,促销活动不够吸引人等。

4.对产品质量进行评估和改善,解决消费者投诉和退货等问题。

5.优化物流和售后服务,提高消费者满意度和忠诚度。

6.关注市场环境变化,及时调整策略和方向,适应市场的变化。

14、怎么度量用户活跃

用户活跃度是指用户在一段时间内使用某个产品或服务的频率和程度。度量用户活跃度的方法可以根据具体产品或服务的特点而有所不同。下面列举一些常用的度量用户活跃度的方法:

1.DAUWAUMAU:DAU(日活跃用户)、WAU(周活跃用户)和MAU(月活跃用户)是一些常见的度量用户活跃度的指标。DAU表示在一天内使用产品或服务的用户数,WAU表示在一周内使用产品或服务的用户数,MAU表示在一个月内使用产品或服务的用户数。这些指标可以反映用户的活跃度和使用频率。

2.活跃时长:通过统计用户在产品或服务中的停留时间来度量用户活跃度。可以将用户的活跃时长分为不同的时间段进行统计,例如每日、每周、每月等。活跃时长可以反映用户对产品或服务的使用程度。

3.行为次数:通过统计用户在产品或服务中的行为次数来度量用户活跃度。行为次数可以包括浏览次数、点赞次数、评论次数、分享次数等。这些行为次数可以反映用户对产品或服务的使用频率和参与度。

4.消费金额:对于一些电商、在线支付等产品,可以通过统计用户在平台上的消费金额来度量用户活跃度。消费金额可以反映用户对产品或服务的消费程度和贡献度。

5.回访率:回访率指的是在一段时间内回访产品或服务的用户比例。回访率可以反映用户对产品或服务的满意度和忠诚度。

15、上线了一个新功能,怎么建立指标评估功能上线的效果

在建立指标评估功能上线效果之前,需要明确新功能的目标是什么,需要解决哪些问题或提供哪些价值。接下来可以按照以下步骤建立指标评估功能上线的效果:

1.设定指标:根据新功能的目标,设定相应的指标,例如活跃用户数、转化率、留存率等。

2.收集数据:收集新功能上线前后的数据,包括用户使用行为、用户属性、营销数据等。

3.数据预处理:对收集的数据进行清洗、去重、缺失值处理等预处理工作,确保数据的准确性和可用性。

4.分析数据:使用数据分析工具,如Excel、Python等,对数据进行分析,比较新功能上线前后的数据差异和趋势。同时,可以分析不同用户群体的使用行为,找出问题所在。

5.评估效果:根据设定的指标和数据分析的结果,对新功能上线的效果进行评估。可以使用A/B测试等方法,比较新功能和原有功能的效果,判断新功能是否达到预期目标。

6.优化迭代:根据评估的结果,对新功能进行优化迭代,不断改进功能,提高用户体验和产品价值。

在建立指标评估功能上线效果时,需要考虑到新功能上线的时间、样本大小、数据的可靠性和精度等因素,确保评估结果的准确性和可靠性。同时,需要注意新功能的上线不一定会立即产生效果,需要给足够的时间进行数据收集和评估。

16、直播领域怎么搭建指标体系

在直播领域,搭建指标体系需要考虑到直播平台的特性和业务目标。下面是一些可以考虑的指标:

1.直播观看人数:衡量直播间的流量和用户参与度。

2.直播观看时长:衡量用户对直播内容的兴趣程度和参与度。

3.直播间停留率:衡量用户对直播间整体环境的喜爱程度。

4.直播弹幕互动数:衡量用户参与直播的热情和活跃度。

5.礼物收入:衡量直播间的商业价值和用户付费意愿。

6.直播间用户粘性:衡量用户对直播间的忠诚度和持续关注程度。

7.直播间转化率:衡量用户从直播间到其他业务场景的转化效果,如商品购买、注册等。

8.直播内容质量评价:衡量用户对直播内容质量的评价和满意度。

以上指标可以根据实际业务场景进行调整和扩展,同时需要考虑到指标之间的关联性和重要性,进行权重分配和综合评估。另外,指标体系需要与业务目标紧密相连,确保指标的反映业务效果和价值。最终搭建的指标体系需要满足客观、全面、有效、易于理解和操作等特点。

17、有做过用户分层,建立用户画像相关的项目吗,怎么做的,结论是什么

用户分层和建立用户画像是一个比较常见的数据分析项目,它的目的是对用户进行分类和描述,更好地了解用户的行为和需求,从而优化产品和服务。

以下是一个简单的用户分层和建立用户画像的步骤:

1.数据收集:收集用户相关的数据,包括用户行为数据、用户属性数据和营销数据等。

2.数据清洗和处理:对收集到的数据进行清洗、去重、缺失值处理等预处理工作,确保数据的准确性和可用性。

3.特征提取:从收集到的数据中提取用户相关的特征,包括用户的行为、偏好、兴趣、地域等方面。

4.用户分层:基于用户提取的特征,对用户进行分层,可以使用聚类分析等方法,将用户划分为不同的群体。

5.建立用户画像:对每个用户群体进行描述和分析,包括用户的特征、需求、行为和偏好等方面。可以使用可视化工具,如图表和报表等,更好地展示用户画像和洞察用户需求。

6.结论:根据用户分层和用户画像的结果,总结用户的行为和需求特点,找出用户的痛点和需求,为产品优化和营销提供指导。

用户分层和建立用户画像的结论会因为数据来源和分析方法的不同而有所不同。一般而言,用户画像需要根据不同的用户特征进行描述,比如用户的年龄、性别、地域、偏好、行为等。基于用户画像和用户分层的结果,可以得出一些结论,如:

1.用户偏好和需求的差异:不同用户群体的偏好和需求可能有所不同,需要针对不同用户群体进行个性化的产品设计和营销策略。

2.用户增长和流失的原因:通过分析用户群体的增长和流失情况,可以找出用户增长和流失的原因,从而优化产品和服务。

3.产品的市场定位和竞争优势:通过对用户画像和竞争对手的分析,可以找出产品的市场定位和竞争优势,为产品的优化和营销提供指导。

18、线性回归和逻辑回归的区别

线性回归和逻辑回归都是广泛应用于机器学习领域的统计模型,它们在很多方面都有相似之处,但是它们的应用场景和建模方式有很大的区别。

1.应用场景:线性回归主要用于预测数值型的连续变量,例如预测销售额、房价、股票价格等。而逻辑回归主要用于分类问题,例如预测一个用户是否会购买某种商品,或者一个邮件是否是垃圾邮件等。

2.建模方式:线性回归通过对自变量和因变量之间的线性关系进行建模,求出最小二乘回归直线来预测因变量的值。而逻辑回归通过对自变量和因变量之间的非线性关系进行建模,使用逻辑函数来描述自变量对因变量的影响,以此预测因变量的类别。

3.输出结果:线性回归的输出结果是连续的数值,而逻辑回归的输出结果是二元的概率值,表示一个样本属于某一类别的概率。

4.模型评估:线性回归的模型评估常用的指标是均方误差(Mean Squared Error,MSE),即预测值与实际值之间的平均差的平方。而逻辑回归的模型评估常用的指标是准确率、召回率、F1值等分类指标。

总的来说,线性回归适用于预测连续型变量,而逻辑回归适用于分类问题。线性回归的模型建立和评估相对简单,而逻辑回归的模型则相对复杂,需要对模型参数进行优化和调整。

19、逻辑回归为什么使用交叉熵作为损失函数

逻辑回归使用交叉熵作为损失函数能够较好地描述模型的误差,同时也方便使用梯度下降等优化算法来训练模型。

20、什么是因果推断

因果推断是一种推理过程,通过对数据、经验和实验进行分析,来确定一个因素是否导致了另一个因素的变化。在因果推断中,我们试图确定某种因果关系是否存在,并且如果存在,我们想要了解它们之间的关系是什么。这种推断有助于我们理解和解释事件之间的关系,以及预测一种事件是否可能发生。

因果推断可以应用于各种领域,包括科学、医学、社会学和经济学。在科学研究中,因果推断可以帮助科学家们确定某种药物或治疗方法是否有效,以及某种环境污染物是否对人类健康产生了负面影响。在社会科学领域中,因果推断可以帮助我们理解不同政策或社会制度对人们的生活产生的影响。因此,因果推断是一个非常重要的工具,可以帮助我们做出更加精准的决策和预测。

21、假设检验的原理,p值的含义,Z检验和T检验的区别

假设检验是统计学中用来确定一个关于总体的某个假设是否可以被接受的方法。它包括三个基本步骤:提出假设、选择检验统计量以及计算p值。p值是一个概率,表示在零假设为真的情况下,出现实验结果或更极端结果的概率。如果p值小于显著性水平(一般为0.05),则我们拒绝零假设,否则我们接受零假设。

Z检验和T检验都是用于比较两个样本或者样本与总体之间差异的方法。其中,Z检验适用于样本量较大、总体标准差已知的情况,T检验适用于样本量较小、总体标准差未知的情况。

Z检验的统计量为样本均值与总体均值之差除以标准误,服从标准正态分布。而T检验的统计量为样本均值与总体均值之差除以标准误,其中标准误通过样本标准差估计。因此,当总体标准差已知时,可以使用Z检验;当总体标准差未知时,需要使用T检验。

需要注意的是,假设检验只能说明在样本中观察到的差异是否有统计学意义,不能说明这些差异具有实际意义或者是因果关系。此外,p值并不代表假设成立的概率,而是在假设成立的前提下,出现观察到的实验结果或更极端结果的概率。因此,在进行假设检验时需要仔细考虑假设的合理性和实际意义。

22、XGBoost的损失函数

XGBoost(eXtreme Gradient Boosting)是一种基于决策树的集成学习算法,其目标是通过不断加入新的决策树来提高模型的预测性能。在XGBoost中,使用的是梯度提升(Gradient Boosting)方法,因此损失函数的选择非常重要,常见的损失函数包括以下几种:

1.平方损失函数(Squared Loss):常用于回归问题,将预测值与真实值之差的平方作为损失函数。对于第i个样本,其平方损失函数为:L(y_i,\hat{y_i})=(y_i-\hat{y_i})^2

2.对数损失函数(Log Loss):常用于二分类问题,将预测概率与真实标签之间的差异作为损失函数。对于第i个样本,其对数损失函数为:L(y_i,\hat{y_i})=-y_i\log(\hat{y_i})-(1-y_i)\log(1-\hat{y_i})

3.指数损失函数(Exponential Loss):常用于二分类问题,将指数函数作用于预测结果与真实结果的差异。对于第i个样本,其指数损失函数为:L(y_i,\hat{y_i})=\exp(-y_i\hat{y_i})

4.Hinge损失函数(Hinge Loss):常用于多分类问题,将预测值与真实值之间的差异与一个给定的阈值进行比较,不同于平方损失函数的连续可导,Hinge损失函数是一个不连续的函数。对于第i个样本,其Hinge损失函数为:L(y_i,\hat{y_i})=\max(0,1-y_i\hat{y_i})

总之,XGBoost的损失函数的选择需要根据具体的问题和数据特点进行选择,以期望获得更好的模型预测性能。

23、决策树算法有哪些,有什么区别

决策树算法是一类基于树形结构来表示决策规则的机器学习算法,常用于分类和回归问题。常见的决策树算法包括以下几种:

1.ID3算法(Iterative Dichotomiser 3):ID3算法是决策树算法中的一种经典算法,使用信息增益作为属性选择的标准。它的缺点是只能处理离散属性,不能处理连续属性和缺失值。

2.C4.5算法:C4.5算法是ID3算法的改进版,可以处理连续属性和缺失值,并使用信息增益比作为属性选择的标准。

3.CART算法(Classification and Regression Tree):CART算法既可以处理分类问题,也可以处理回归问题。它使用基尼系数作为属性选择的标准,可以处理连续属性和缺失值,并且可以生成二叉树。

4.CHAID算法(Chi-squared Automatic Interaction Detection):CHAID算法是一种非参数统计方法,使用卡方检验来选择属性。它只能处理分类问题,但可以处理离散和连续属性,并且可以生成多叉树。

5.MARS算法(Multivariate Adaptive Regression Splines):MARS算法是一种基于样条函数的回归算法,可以处理连续属性和缺失值,并且可以生成二叉树。

这些算法的区别主要在于属性选择的标准、处理属性类型的能力、生成树的结构、处理回归问题的能力等方面。因此,在选择决策树算法时需要根据具体的问题和数据特点进行选择,以期望获得更好的模型预测性能。

24、决策树怎么解决过拟合问题

决策树算法容易出现过拟合的问题,即模型在训练集上表现很好,但在测试集上表现较差。以下是一些常用的方法来解决决策树过拟合的问题:

1.剪枝(Pruning):剪枝是指在构造决策树时,先构造一个完整的决策树,再从中去掉一些分支或子树,使得剪枝后的树在测试集上的表现更好。常见的剪枝方法包括预剪枝和后剪枝。

2.正则化(Regularization):决策树的正则化方法主要有两种:一种是在损失函数中引入正则项(如L1正则化、L2正则化),以减小模型的复杂度;另一种是限制决策树的深度、最小划分样本数、最大叶子节点数等参数,以避免模型过于复杂。

3.随机化(Randomization):随机化方法是指在构造决策树时,对属性的选择进行随机化或引入随机噪声,以降低模型的方差,从而避免过拟合。例如,随机森林(Random Forest)算法就是一种基于随机化的决策树集成算法。

4.数据增强(Data Augmentation):数据增强是指通过对数据进行一定的扰动或变换,增加数据的多样性,从而降低模型的过拟合风险。例如,在图像分类问题中,可以通过对图像进行旋转、缩放、平移等变换来增加数据的多样性。

以上方法都可以有效地降低决策树模型的过拟合风险,提高模型在测试集上的预测性能。在实际应用中,可以根据具体的问题和数据特点选择合适的方法来解决过拟合问题。

25、GBDT和随机森林的区别

GBDT(Gradient Boosting Decision Tree)和随机森林(Random Forest)都是常用的集成学习算法,但它们在算法原理、模型结构和应用场景等方面存在一些区别。

1.算法原理:GBDT是一种基于梯度提升(Gradient Boosting)的决策树集成算法,它通过逐步优化模型的残差来构造模型;而随机森林是一种基于随机化的决策树集成算法,它通过对训练集随机采样和对属性随机选择来增加模型的多样性。

2.模型结构:GBDT是一种串行的集成算法,每一次迭代都会新增一棵决策树,最终的模型是所有决策树的加权和;而随机森林是一种并行的集成算法,所有决策树的输出取平均值或投票结果作为最终预测结果。

3.应用场景:由于GBDT具有较高的拟合能力和较强的泛化能力,因此适用于各种复杂的回归和分类问题;而随机森林适用于高维度数据和特征选择问题,且由于其并行化处理的特点,可用于大规模数据集的快速建模。

4.解释性:由于GBDT采用串行的方式进行训练,每一棵树都是基于上一棵树的残差进行训练,因此GBDT的结果更容易解释;而随机森林采用并行的方式训练多棵树,每棵树之间没有明显的依赖关系,因此难以解释每棵树对最终结果的贡献。

综上所述,GBDT和随机森林的差异在于算法原理、模型结构、应用场景和解释性等方面。在实际应用中,可以根据数据特点和预测目标来选择合适的算法。

26、L1正则化和L2正则化的区别

L1正则化和L2正则化都是常用的正则化方法,它们可以用于降低模型的复杂度,防止过拟合,提高模型的泛化能力。它们的主要区别在于正则化项的形式和对模型的影响。

L1正则化是将权重向量中各个参数的绝对值之和作为正则化项加入到损失函数中,形式为λ∑|wi|。L1正则化的效果是将一部分参数变为0,从而使模型变得更加稀疏,可以用于特征选择或降维。

L2正则化是将权重向量中各个参数的平方和作为正则化项加入到损失函数中,形式为λ∑w^2i。L2正则化的效果是使权重向量中的每个参数都趋向于较小的值,从而减少参数间的差异性,可以避免过拟合。

综上所述,L1正则化和L2正则化的区别在于正则化项的形式和对模型的影响。L1正则化可以使模型更加稀疏,可以用于特征选择或降维;L2正则化可以使模型参数更加平滑,可以避免过拟合。在实际应用中,可以根据具体情况选择合适的正则化方法。

27、线性回归的基本假设,怎么解决多重共线性问题

线性回归是一种常见的统计分析方法,它基于一些假设,包括:

1.线性关系假设:自变量和因变量之间的关系应该是线性的

2.独立性假设:自变量之间应该是独立的。

3.正态分布假设: 因变量的分布应该是正态分布的

4.等方差性假设:误差项的方差应该是常数

如果数据违反了这些假设,线性回归模型可能会产生不准确的结果。其中,多重共线性问题是一种常见的假设违反情况,它指的是自变量之间存在高度相关的情况。

解决多重共线性问题的方法包括:

1.特征选择: 通过选择相关性较低的自变量,降低自变量之间的相关性

2.主成分归 (PCR) : 使用主成分分析 (PCA) 降维,将原始自变量转换为一组无关的主成分,从而降低自变量之间的相关性。

3.岭回归 (Ridge Regression) : 在损失函数中加入L2正则化项,通过惩罚较大的权重来避3.免过拟合和多重共线性

4.Lasso回归: 在损失函数中加入L1正则化项,通过将一些权重变为0来选择特征,从而减少自变量之间的相关性。

28、信息增益和基尼系数的公式

在决策树中信息增益通常有这样一个公式:

  1. 其中D是数据集,a是选择的属性,a中共有v个取值。
  2. 信息增益在决策树里概念上的一个公式:信息增益=划分前信息熵 - 划分后信息熵。划分前信息熵就是H(D)对吧,这里也写做Ent(D),划分后的信息熵就是说根据某个属性进行划分后的信息熵,也就是所谓的条件熵H(D|a)
  3. 决策树里ID3算法为啥选信息增益最大的作为划分点呢?划分前-划分后的值越大,不就说明你用这个方式划分减少的信息熵越大,不就说明划分后信息熵减少了,数据集纯度更纯了。所以就选信息增益最大的。
  4. 再用个生活中的例子,暂且不考虑费用问题且陆路只有深圳有直达香港的列车,你从北京陆路前往香港,要转车的次数最少,那就希望每一趟车都行驶最大的距离对吧,这里就有个贪心的思想。ID3根据信息增益最大选取划分点就是这个思路

基尼系数实际上也是个表示数据集纯度的指标:基尼指数越小,数据集纯度越高。

 表示在样本集合中一个随机选中的样本被分错的概率。

29、最小二乘法和极大似然估计有什么区别

最小二乘法和极大似然估计都是常用的参数估计方法。

最小二乘法是一种常见的线性回归方法,它的目标是通过最小化残差平方和来估计模型参数。最小二乘法的思想是在给定数据点的情况下,找到一条最佳拟合直线,使得所有数据点到该直线的距离之和最小。

极大似然估计是一种广泛应用于统计学中的参数估计方法,它的目标是在给定观测数据的情况下,找到一个最有可能解释这些数据的参数值。极大似然估计的思想是寻找一组参数,使得给定数据样本的概率最大。

两种方法的区别在于目标函数的不同。最小二乘法的目标是最小化残差平方和,即找到一个使得拟合直线与数据点之间的误差最小的参数值;而极大似然估计的目标是最大化给定数据样本的概率,即找到一个能够最好解释数据的参数值。

最小二乘法通常用于线性回归模型的参数估计,而极大似然估计则适用于各种模型的参数估计,包括线性回归模型、逻辑回归模型、朴素贝叶斯模型等。

30、回归和分类模型的评价指标都有哪些

回归和分类模型的评价指标不完全相同。下面是它们的常见评价指标:

回归模型的评价指标:

均方误差(MSE):所有数据点预测误差的平方和的均值。

均方根误差(RMSE):均方误差的平方根。

平均绝对误差(MAE):所有数据点预测误差的绝对值之和的均值。

R平方($R^2$):模型拟合数据的程度,范围在0到1之间。$R^2=1$表示模型完美拟合数据,$R^2=0$表示模型无法解释数据。

分类模型的评价指标:

准确率(Accuracy):分类正确的样本数占总样本数的比例。

精确率(Precision):所有被分类器正确分类为正样本的样本占所有分类为正样本的样本的比例。

召回率(Recall):所有被分类器正确分类为正样本的样本占所有真实正样本的比例。

F1分数(F1 Score):精确率和召回率的加权调和平均数,反映了分类器的综合性能。

AUC曲线下面积(AUC-ROC):ROC曲线下的面积,用于评估二元分类器的性能。

猜你喜欢

转载自blog.csdn.net/lxwssjszsdnr_/article/details/129915120