数据分析面试

数据分析相关的职位面试可以拆解为以下三块：

1）技术基础

2）项目经验提问

3）业务问题

【数据分析与挖掘（二）】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客

我裸辞去面试python岗位了_Python_金钱豹的博客-CSDN博客

sql

py编程

面试：

02 为什么通过统计指标处理特征缺失值时，针对连续型字段经常采用平均值、中位数来填充，而不采用最大值、最小值、众数？
答：采用平均值、中位数可以在一定程度上保证数据的平衡，很多情形下可以维持原有数据的分布形态，若采用最大值、最小值等方式填充，很可能导致处理后的数据分布趋势发生变化，尤其是在缺失值数量较多的情况下，直接导致出现偏峰分布的现象，同时填充后的数据也不符合实际业务的客观理解。当然，在某些特定场景下采用最大值、最小值等填充也是完全合理的，但一般情况下针对连续型特征，采用平均值、中位数相对更合适些。

03 为什么在特征缺失值与异常值处理过程，往往异常值处理在前？
答：如果缺失值处理在前，若通过常用的统计指标（最大值、最小值、平均值等）来填充，会将异常值数据考虑在内，这相当于将噪音数据成分植入到缺失单元，在一定程度上将异常值成分扩散，直接影响数据的合理分布。如果异常值处理在前，可以先将噪音数据影响的排除，然后采用合适的缺失值填充方法处理，可以较好保证特征数据分布的原有形态，对后续模型训练的影响也明显更小。

04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现？
答：从箱线图的原理逻辑来讲，离散数值型特征是完全支持通过箱线图来识别异常值的，而且也具有一定的解释意义，但相对连续型特征的箱线图处理，离散数值型特征处理过程的合理性有明显欠缺。例如，某离散型特征的取值分布为1,2,3,4,10，若采用箱线图来判断，则10会认为异常值，若此特征的标签含义是电商会员卡等级，10是很有意义的，作为异常值处理是不合理的。因此，离散数值型特征往往通过取值占比或人为经验来判断异常值。

05 为什么在数据建模前的特征探索分析很有必要？
答：样本数据探索的主要目的，是为了给后续的数据清洗与特征工程等环节提供信息参考。其中，针对数据清洗方面，我们可以根据数据的统计分析，了解到样本特征的分布类型（连续型、离散型）、取值类型（varchar、int、float、date）、缺失值情况、异常值情况等，可以进一步决定数据清洗的具体方法，例如对于连续型与离散型特征的缺失值处理，选取的处理逻辑是有很大区别的，连续型采用平均值，而离散型采用众数等。针对特征工程方面，由于已知特征字段的不同取值类型，在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此，在数据分析任务中，导入数据后的样本探索分析，对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。

06 为什么特征衍生时字段维度不要太多？
答：特征衍生是数据建模过程中经常采用的一项特征工程，尤其是针对特征变量池较小的情况，但是对原始特征进行衍生的过程中，不能一味追寻加工特征的数量，务必要考虑特征的业务含义与应用价值，在银行等传统金融机构更需要注意这个要点。同时，根据原始特征的不断衍生，例如通过统计学的差分、占比等维度，理论上可以加工出无穷的字段，但新字段之间的相关性是很强的，在后续特征筛选的环节会很大概率的删除，这对工作效率来讲显然是没有必要的，即使不进行特征相关性筛选，在模型拟合过程中会直接导致模型的共线性，而这也并不是我们希望的结果。因此，在特征衍生环节，要客观分析把握一定的衍生维度与方法是最重要的。

07 为什么特征变量之间的相关性分析很有必要？
答：特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的，对于三方数据测试，我们可以根据特征的相关性分析，得到相关字段联系的量化指标，从而为字段选择与特征引入提供很直观的参考价值；对于数据建模，特征的相关性分析已经成为一种标配，根据字段之间的相关性系数大小，可以筛选保留信息度较大的字段，不仅可以较大程度减弱模型拟合的共线性，而且可以提

面试题：在实施A/B test时，流量该如何进行分流？

答：实施A/B test的核心思路有3点，一是多个方案同时并行，二是控制变量，每个方案之间只有一个变量有差异，三是明确方案的评价标准，即实验组的效果要超过对照组多少才认为是显著的。如果只对一个环节进行A/B test，那么每个方案之间的流量是要互斥的，并且是随机划分的，这样可以保证每个方案的流量都来自于同一个样本空间。

面试题：我们公司有一款产品是与银行合作推出的“联名信用卡”，这种信用卡可以取现。你认为其中存在的风险点有哪些？该如何降低这些风险？

答：我对您提到的这款“联名卡”的具体业务流程不是特别清楚，这里我就假定它和银行的信用卡是类似的。

区别在于贵公司作为资金提供方和流量入口，而银行作为发卡机构。我认为存在的风险有3点。

第一是逾期风险，这个风险普遍存在于金融领域。解决的方法是不断对风控规则进行迭代，定期对模型进行重新训练，适应客群的变化。如果可能的话，还可以与合作银行进行数据方面的共享，降低数据孤岛带来的影响。

第二是欺诈风险。可以采取“面签”的方式降低风险。银行在发放信用卡时几乎都会要求去线下网点面签，与银行合作刚好可以发挥这方面的优势。

第三是政策风险。这个风险点在于银行方面出于合规的考虑与贵公司解除合作。

猜你喜欢