【牛客】网易2018实习生招聘笔试题——数据分析师实习生解析

* 选择题根据牛客网下方讨论整理，三道大题均为自己答案，欢迎大家讨论并给予指正。

（https://www.nowcoder.com/test/10780714/summary）

第二道sql参考(https://bbs.csdn.net/topics/392421965?page=1)

一、选择题

1、有2堆宝石，A和B一起玩游戏，假设俩人足够聪明，规则是每个人只能从一堆选走1个或2个或3个宝石，最后全部取玩的人获胜，假设2堆宝石的数目为12和13，请问A怎么可以必胜？

答：A只要取完宝石后给B留4的倍数就能赢，留下4的倍数，B就没有办法取完。而A每次都可以按照B取的数量来修正，保证每次留给B的是4的倍数。到最后B没有办法一次取完4个，而且必须要取，剩下的A取完就赢了

2、从数字集合{1,2,3,4,… ,20}中选出4个数字的子集，如果不允许两个相连的数字出现在同一集合中，那么能够形成多少个这种子集？

答：插空法，16个数17个空任选四个插入数字便可得，C17,4=2380

3、将4个不一样的球随机放入5个杯子中，则杯子中球的最大个数为3的概率是?

答：C4,3 * C4,1 * C5C1 / (5^4) = 16/125

4、已知y=f(x)的均差f(x0, x1, x2)=14/3，f(x1, x2, x3)=15/3，f(x2, x3,x4)=91/15，f(x0, x2, x3)=18/3，那么均差f(x4, x2, x3)=（）

答：91/15（18/3、14/3、15/3、91/15）

均差f(x4, x2, x3)＝f(x2, x3,x4)=91/15，(对称性)差商与插值节点的顺序无关

5、一个快递公司对同一年龄段的员工，进行汽车，三轮车，二轮车平均送件量的比较，结果给出sig.=0.034，说明

答：按照0.05显著性水平，拒绝H0，说明三类交通工具送件量有显著差异。

6、小明在一次班干部二人竞选中，支持率为百分之五十五，而置信水平0.95以上的置信区间为百分之五十到百分之六十，请问小明未当选的可能性有可能是

答：3%

【0.5,0.6】的概率在0.95以上，0.55属于区间内，故一定有某个子集区间包含0.55且概率为0.97

7、某销售车辆公司某一时间段各类商品的销售量如下图，

销售员需统计以下公式所示数据=SUM(SUMIF(C2:C9,{"<10","<6"})*{1,-1})

请问，该公式返回值为

答：14

C2:C9按照"<10","<6"条件分别求和，再按照1,-1求和，即23-9=14

8、SQL语句执行的顺序是

答：1.FROM 2.JOIN ON 3.WHERE 4.GROUP BY 5.HAVING 6.SELECT 7.ORDER BY

9、随机地掷一骰子两次，则两次出现的点数之和等于8的概率为：

答：5/36，35,53,26,62,44

10、设随机变量X和Y都服从正态分布,且它们不相关，则（）

答：X与Y未必独立

错误答案：(X, Y)服从二维正态分布、X与Y一定独立、X + Y服从一维正态分布

A．只有当（X，Y）服从二维正态分布时，X与Y不相关⇔X与Y独立，本题仅仅已知X和Y服从正态分布，因此，由它们不相关推不出X与Y一定独立，故A错误；
B．若X和Y都服从正态分布且相互独立，则（X，Y）服从二维正态分布，但题设并不知道X，Y是否独立，故B错误；
C．由A、B分析可知X与Y未必独立，故C正确；
D．需要求X与Y相互独立时，才能推出X+Y服从一维正态分布，故D错误．

11、某地区每个人的年收入是右偏的，均值为5000元，标准差为1200元。随机抽取900人并记录他们的年收入，则样本均值的分布为()

答：近似正态分布，均值为5000元，标准差为40元

错误答案：近似正态分布，均值为5000元，标准差为1200元；右偏分布，均值为5000，标准差为40；左偏分布，均值为5000元，标准差为1200元

中心极限定理，样本量N只要越来越大，抽样样本n的样本均值会趋近于正态分布，并且这个正态分布以u为均值，sigma^2/n为方差。

12、抽取30个手机用户，计算出他们通话时间的方差。要用样本方差推断总体方差，假定前提是所有用户的通话时间应服从()

答：正态分布

一个总体的方差的区间估计其前提条件是总体服从正态分布，在置信水平下的置信区间服从卡方分布

13、把黑桃、红桃、方片、梅花四种花色的扑克牌按黑桃10张、红桃9张、方片7张、梅花5张的顺序循环排列。问第2015张扑克牌是什么花色？

答：梅花

2015/31 = 65 所以最后一张应该是梅花

14、命题A：随机变量X和Y独立，命题B：随机变量X和Y不相关。A是B的______条件。

答：充分不必要

前者可推出后者，后者推不出前者

15、假定树根的高度为0，则高度为6的二叉树最多有_______个叶节点。

答：64

一棵树当中没有子结点（即度为0）的结点称为叶子结点。所以2^6=64

16、已知一棵树具有10个节点，且度为4，那么：

答：该树的高度至多是7

树的高度：从所有叶节点开始数高度到根节点，其中的最大值；也就是从结点x向下到某个叶结点最长简单路径中边的条数。

树的深度：树根下中所有分支结点层数的最大值，递归定义。（一般以根节点深度层数为0）

17、对于以下关键字{55，26，33，80，70，90，6，30，40，20}，增量取5的希尔排序的第一趟的结果是：

答：55，6，30，40，20，90，26，33，80，70

{55，26，33，80，70，90，6，30，40，20} 增量为5，从55开始每隔5个距离取值分为1组，共分为5组，

分别为{55，90} {26,6}{33,30}{80,40}{70,20}

先组内排序取最小值：55，6，30，40，20，
后取剩余值：90，26，33，80，70

18、设二叉排序树中关键字由1到999的整数构成，现要查找关键字为321的节点，下面关键字序列中，不可能出现在二叉排序树上的查找序列是：

答：888、231、911、244、898、256、362、366

2、252、400 、398、300、344、310、321；888、200、666、240、312、330、321；2、398、387、219、266、283、298、321

二叉排序树的特点就是

若左子树不空，则左子树上所有结点的值均小于或等于它的根结点的值
若右子树不空，则右子树上所有结点的值均大于或等于它的根结点的值
左、右子树也分别为二叉排序树

看B选项的最后两个数，321 和 362 比较以后，明显321< 362 ，必然会去寻找362的左子树，此时应该去寻找362的左子树，但是366大于362肯定不是左子树

二叉排序树的算法就是

首先将待查关键字key与根节点关键字t进行比较：
a.如果key = t, 则返回根节点指针。
b.如果key < t,则进一步查找左子书。
c.如果key > t,则进一步查找右子树。

19、用1*3的瓷砖密铺3*20的地板有几种方式？

答：1278

一共可能有2，5，8，11，14，17块砖头竖着放（（20-2）%3==0其余数字同理。）

#竖着放代表长度为3的边刚好接触。A6,6代表6！也等于6的阶乘

当有2块竖着放，一共有8（2+（20-2）/3=8）块转，其中6块为竖着放，2块横着。A8,8/(A6,6*A2,2)=28;

当有5块竖着放，一共有10块转，其中5块为竖着放，5块横着。A10,10/(A5,5*A5,5)=252;

当有8块竖着放，一共有12块转，其中8块为竖着放，4块横着。A12,12/(A8,8*A4,4)=495;

当有11块竖着放，一共有14块转，A14,14/(A11,11*A3,3)=364;

当有14块竖着放，一共有16块转，A16,16/(A14,14*A2,2)=120;

当有17块竖着放，一共有18块转，A18,18/(A17,17*A1,1)=18;

当有20块竖着放，结果为1;

以上加总为1278;

20、有20个人去看电影，电影票50元。其中只有10个人有50元钱，另外10个人都只有一张面值100元的纸币，电影院没有其他钞票可以找零，问有多少种找零的方法？

答：16796

卡特兰数问题C(n,2n)/(n+1)=C(10,20)/11=16796

二、大题

1、好评率是会员对平台评价的重要指标。现在需要统计2018年1月1日到2018年1月31日，用户'小明'提交的母婴类目"花王"品牌的好评率（好评率=“好评”评价量/总评价量）:

用户评价详情表：a

字段：id（评价id，主键），create_time（评价创建时间，格式'2017-01-01'）， user_name(用户名称)，goods_id(商品id，外键) ，

sub_time（评价提交时间，格式'2017-01-01 23:10:32'），sat_name（好评率类型，包含：“好评”、“中评”、“差评”）

商品详情表：

b 字段：good_id（商品id，主键），bu_name（商品类目）, brand_name(品牌名称)

select sum(case when sat_name ='好评' then count(sat_name) end) / count(sat_name)  as "好评率"
from a join b on a.good_id = b.good_id
where a.user_name ='小明'
and b.bu_name = '母婴'
and b.brand_name ='花王'
and a.sub_time between to_date('2018-1-1','yyyy-mm-dd') and to_date('2018-1-31','yyyy-mm-dd')

2、考拉运营"小明"负责多个品牌的销售业绩，请完成：

（1）请统计小明负责的各个品牌，在2017年销售最高的3天，及对应的销售额。

销售表 a:

字段：logday（日期，主键组），SKU_ID（商品SKU，主键组），sale_amt(销售额)

商品基础信息表 b:

字段：SKU_ID（商品SKU，主键）,bu_name（商品类目），brand_name(品牌名称)，user_name（运营负责人名称）

（2）请统计小明负责的各个品牌，在2017年连续3天增长超过50%的日期，及对应的销售额。

select a.logday. bbrand_name, a.sale_amt
from a join b on a.sku_id = b.sku_id
where year(a.logday)='2017' and b.user_name = '小明'
group by b.brand_name
oerder by a.sale_amt desc limit 3;


cte_2
as
(select A.logday,B.sale_amt,B.brand_name,
 COUNT(*) over (partition by A.logday) AS qty,
 1.5*lag(sale_amt,1,0) over (partition by A.logday order by B.logday) as last_amt
 from cte_1 A
 join cte_1 B on A.brand_name=B.brand_name and B.logday between A.logday and DATEADD(DAY,3,A.logday))
  
select * from cte_2 A
where qty=4
and not exists (select 1 from cte_2 where A.logday=logday and A.brand_name=brand_name and sale_amt<last_amt)

3、考拉海购始终以用户为中心，为用户提供高品质的商品，帮助用户“用更少的钱，过更好的生活”。为了满足不同用户的需求（比如新客户的要求可能跟老客户不同，流失客户需要特殊的关怀），请你设计一套具体的方案，合理划分不同用户，并能给出相应的建议。

针对用户类型进行划分。

1、新用户——引导性信息收集

任何电商品牌都有一套属于自己的推荐算法，但是对于新用户和新商品这种冷启动问题一般还是没有很好的解决方法。实际上，新商品有很多性能参数，可以根据相近商品进行预测，而新用户对于算法来说是一个完全空白的样本，不利于探测客户需求，所以建议在新用户注册时设计一套能够捕捉购买方向和趋势的问卷，并配合问卷选择发放一些对应的优惠券，这样一方面可以引导新用户在情愿的情况下给出真是的购买意愿，另一方面也能够在最快的时间内捕捉到该用户的一些信息，再一方面促进了用户购买商品的几率。

2、规律用户——捕捉规律行为

大部分用户的购买行为存在周期性，比如优惠周期，使用周期，系统可以根据用户在过去的购买和浏览行为探索用户购买周期，然后预测下一个购买周期，并且发送优惠信息，这样既让用户享受到了优惠，又实现了营销。

3、流失用户——捕捉细节

万事皆有原因，一个用户流失要么是在这里吃过亏，要么是觉得买不到想要的，要么是别的平台更便宜，无非这三大类原因，所以应该捕捉用户最后的浏览信息，浏览表明有购买意愿，针对这些商品基于一些优惠，吸引用户再次浏览，根据一次次吸引浏览来判断不购买原因，再对症下药。

注：要区分流失用户和规律用户，这两类行为存在很大的相似性，但是后者其实并不需要太多优惠或行为进行挽留。