阿里巴巴2016校园招聘数据挖掘工程师详解

##简答题
#####1、公司要构建淘宝商家健康指数,所以要对最近1年内有交易的淘宝商家进行问卷调研。为不过于打搅商家,问卷调研采取抽样的方式进行确定商家名单。怎么抽样比较好?

######参考答案：
可以考虑采用分层随机抽样的方式。首先根据销售额或销售量对商家进行分层，这样可能会将商家分为高销售额(量) 商户、中销售额(量)商户、低销售额(量)商户等，然后根据这三者的比例确定各个层次应抽取的商户数。对抽取出来的样本，根据相应的指标，如访问量、购买量、买家评级、评论数、发货速度等指标来综合考虑商家的健康指数。

#####2、查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)。

city	buyer_id	order_id	amt
a	1	1	100
a	1	2	100
b	2	3	100
b	3	4	20
c	4	5	0

######参考答案：

select buyer_id,sum(amt) as amt from a
where city in
(
    select city from
    (
        select city,sum(amt) as amt from a group by city
    ) t
    where t.amt>0
)

##不定项选择题
#####3、下列哪些方法可以用来对高维数据进行降维:

A. LASSO
B. 主成分分析法
C. 聚类分析
D. 小波分析法
E. 线性判别法
F. 拉普拉斯特征映射

######解析：
$LASSO$ 通过参数缩减达到降维的目的；

主成分分析法， $PCA$ ，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分，从而达到降维的目的；

聚类分析，先分大类，然后细分小类，同样可以将数据降维；

小波分析法，一些变换的操作降低其他干扰也可以看作是降维；

线性判别法， $LDA$ ，通过找到一个空间使得类内距离最小类间距离最大，所以可以看做是降维；

拉普拉斯特征映射，通过特征映射使用最小的 $m$ 个非零特征值对应的特征向量来实现降维。

#####4、关于线性回归的描述,以下正确的有:

A. 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B. 基本假设包括随机干扰下是均值为0的同方差正态分布
C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D. 在违背基本假设时,模型不再可以估计
E. 可以用DW检验残差是否存在序列相关性
F. 多重共线性会使得参数估计值方差减小

######解析：
一元线性回归的基本假设有：
1）随机误差项是一个期望值或平均值为 $0$ 的随机变量；
2）对于解释变量的所有观测值，随机误差项有相同的方差；
3）随机误差项彼此不相关；
4）解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立；
5）解释变量之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；
6）随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的，只是不能使用普通最小二乘法进行估计。
当存在异方差时，普通最小二乘法估计存在以下问题：参数估计值虽然是无偏的，但不是最小方差线性无偏估计。

杜宾-瓦特森（DW）检验，计量经济，统计分析中常用的一种检验序列一阶自相关最常用的方法。

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
多重共线性使参数估计值的方差增大。

#####5、关于相关系数,下列描述中正确的有:

A. 相关系数为0.8时,说明两个变量之间呈正相关关系
B. 相关系数等于1相较于相关系数等于-1,前者的相关性更强
C. 相关性等于1相较于相关系数等于0,前者的相关性更强
D. Pearson相关系数衡量了两个定序变量之间的相关程度
E. Spearman相关系数可以衡量两个定序变量之间的相关程度
F. 相关系数为0.2相较于-0.8,前者的相关性更强

######解析：
定序测量数据可以用 $spearman$ 相关系数，不能用 $pearson$ 相关系数。

相关系数 $ρ_{XY}$ 取值在 $-1$ 到 $1$ 之间，
$ρ_{XY} = 0$ 时，称 $X, Y$ 不相关；
$| ρ_{XY} | = 1$ 时，称 $X, Y$ 完全相关，此时， $X, Y$ 之间具有线性函数关系；
$| ρ_{XY} | < 1$ 时， $X$ 的变动引起 $Y$ 的部分变动， $ρ_{XY}$ 的绝对值越大， $X$ 的变动引起 $Y$ 的变动就越大， $| ρ_{XY} | > 0.8$ 时称为高度相关，当 $| ρ_{XY} | < 0.3$ 时称为低度相关，其它时候为中度相关。

#####6、现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?

A. ∑(N/K-Cij)(N/K-Cij)越小越纯
B. -∑CijLOG(Rij)越小越纯
C. ∑(1-RijRij)越小越纯
D. ∑(1-Rij)(1-Rij)越小越纯
E. ∑(1-Rij)^2越小越纯
F. -∑RijLOG(Rij)越小越纯

######解析：
信息熵 $Ent = -\sum R_{ij}log(R_{ij})$ ， $Ent$ 的值越小 , 则纯度越高， $F$ 正确， $B$ 与 $F$ 类似，差一个常数，故 $B$ 正确；

基尼系数 $Gini=1 - \sum R_{ij}^2$ , $Gini$ 越小，则纯度越高， $C$ 类似于基尼系数的公式，故 $C$ 正确；

基尼系数 $Gini = 1 - \sum R_{ij}^2$ 越小越纯即 $\sum R_{ij}^2$ 越大越纯，故 $D、E$ 错误；

$A$ 明显错误。

#####7、excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括：

A. index+match
B. vlookup
C. hlookup
D. find
E. if
F. like

######解析：
在 $Excel$ 中 $MATCH$ 函数可以返回指定内容所在的位置，而 $INDEX$ 又可以根据指定位置查询到位置所对应的数据，结合使用，我们可以返回指定位置相关联的数据；

$Excel$ 里根据一个工作簿的一个工作表的 $A$ 列内容搜索另外一个工作簿对应 $A$ 列的 $B$ 列值，在 $sheet1$ 的 $B1$ 利用 $vlookup$ 函数可以实现。

##单选题
#####8、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测？

A. AR模型
B. MA模型
C. ARMA模型
D. GARCH模型

######解析：
$AR$ 模型是一种线性预测，即已知 $N$ 个数据，可由模型推出第 $N$ 点前面或后面的数据（设推出 $P$ 点），所以其本质类似于插值。

$MA$ 模型( $moving\ average\ model$ )滑动平均模型，模型参量法谱分析方法之一。

$ARMA$ 模型( $auto\ regressive\ moving\ average\ model$ )自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比 $AR$ 模型法与 $MA$ 模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。

$GARCH$ 模型称为广义 $ARCH$ 模型，是 $ARCH$ 模型的拓展， $GARCH$ 对误差的方差进行了进一步的建模，特别适用于波动性的分析和预测。

另外， $AR、MA、ARMA$ 是 $ARMA$ 的三种基本形式， $ARMA$ 是混合了 $AR、MA$ ，所以这三个存在内在联系，排除法也可以确定选择 $D$ 。

#####9、在以下不同的场景中,使用的分析方法不正确的有：

A. 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C. 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

######解析：
预测消费需要用回归模型来做。而不是聚类算法。

#####10、关于正态分布,下列说法错误的是:

A. 正态分布具有集中性和对称性
B. 正态分布的均值和方差能够决定正态分布的位置和形态
C. 正态分布的偏度为0，峰度为1
D. 标准正态分布的均值为0，方差为1

######解析：
偏度 $(Skewness)$ 是描述某变量取值分布对称性的统计量。

峰度 $(Kurtosis)$ 是描述某变量所有取值分布形态陡缓程度的统计量。

正态分布的偏度和峰度均为 $0$ 。

#####11、SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示？

A. 零个字符
B. 1个字符
C. 多个字符
D. 以上都可以

######解析：
没什么可说的，通配符 $\%$ 可以匹配零个或者 $1$ 个字符，也可以匹配多个字符，所以 $A、B、C$ 都对，那么选 $D$ 。

#####12、一组数据,均值>中位数>众数,问这组数据?

A. 左偏
B. 右偏
C. 钟型
D. 对称

######解析：
“偏” 可以理解为哪边数据较少朝哪儿偏；
众数，频率最高的数，也是峰值对应的数；
中位数，中间位置的那个数，正态分布图对半分的那条线对应的数；
当中位数 $>$ 众数时，很明显数据是右偏的。

#####13、65,8,50,15,37,24,( )。括号中的数字是( )

A. 25
B. 26
C. 22
D. 27

######解析：
可以将序列拆分为两个序列：
奇数项： $65、50、37$
偶数项： $8、15、24$
奇数项依次减少 $15、13$ ，偶数项依次增加 $7、9$ ，所以下一个是奇数项，应该是上一个奇数项减少 $11$ 为 $26$ 。

#####14、有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少？

A. 0.3333
B. 0.25
C. 0.2
D. 0.1667

######解析：
$\frac{2}{5} * \frac{1}{4} * 2 = 0.2$

#####15、以下哪个是常见的时间序列算法模型？

A. RSI
B. MACD
C. ARMA
D. KDJ

######解析：
时间序列算法模型是指采用某种算法（可以是神经网络、 $ARMA$ 等）模拟历史数据，找出其中的变化规律，回归滑动平均模型（ $ARMA$ 模型， $Auto-Regressive\ and\ Moving\ Average\ Model$ ）是研究时间序列的重要方法，由自回归模型（ $AR$ 模型）与滑动平均模型（ $MA$ 模型）为基础混合构成。

#####16、以下对k-means聚类算法解释正确的是：

A. 能自动识别类的个数,随即挑选初始点为中心点计算
B. 能自动识别类的个数,不是随即挑选初始点为中心点计算
C. 不能自动识别类的个数,随即挑选初始点为中心点计算
D. 不能自动识别类的个数,不是随即挑选初始点为中心点计算

######解析：
$k-means$ 聚类算法过程：
1）适当选择 $c$ 个类的初始中心；
2）在第 $k$ 次迭代中，对任意一个样本，求其到 $c$ 个中心的距离，将该样本归到距离最短的中心所在的类；
3）利用均值等方法更新该类的中心值；
4）对于所有的 $c$ 个聚类中心，如果利用 $2、3$ 的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

可以看出需要选择类别数量，但初次选择是随机的，最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选 $C$ 。

#####17、想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?

A. 从中抽取的500名学生的身高
B. 上海市全部小学生的身高
C. 从中抽取的500名小学生
D. 上海市全部小学生

######解析：
这个题有些奇葩，纯粹送分题，我怎么感觉小学就已经讲过这种难度的样本问题，类似于拿 $1 + 1$ 等于几的问题问大学生，难道是为了咋呼人？

阿里巴巴2016校园招聘 数据挖掘工程师 详解

猜你喜欢

阿里巴巴2016校园招聘数据挖掘工程师详解