Amazon phone

2015-3-11 phone under hr,coding is not required

1. Describe a project that you are post proud of.
2. Which statistical method do you think is most over used?
3. Suppose the company is awarding bonuses, and you are given the task to select the awardees. How would you do it? Describe your analytics, as specific as possible.


2018-7-14
Phone interview-First Round
4. 以前做过什么项目
5. 和老板unhappy的时候,how to handle
6. code 非常简单,毫无算法

Phone interview-Second Round
7. 以前做过的项目.本文原创自1point3acres论坛
8. what is P-Value,一推很基础的statistic的问题
9. code 简单炸了,无算法

2016-3-9
具体题目:首先问了一下之前的project,工作经历,反正会问很细节的东西;然后问了很多ML的东西,问了logistic regression,regularized logistic怎么trian,检查data的colinearty,ROC curve是干啥的,curse of dimensionality是什么意思;问了hash table;问了parametric test和nonparametric test;然后让我进一个可以share code的网写一个sort,写一个做logistic regression,之前感觉是第一次电面邮件,也没说要准备电脑,以为不会这样搞,直接悲剧,因为面试官基本不会给时间考虑,我说我稍微想想,然后他就直接说“that's ok, move on”了,所以感觉coding素养还是很重要的,要熟悉到直接就写吧

2018-6-6 Phone
简要说一下自己做过跟ML有关的项目,用什么ML方法,数据什么样,多少feature,怎么处理overfitting/underfitting,L1/L2区别,feature selection。leetcode 53

2016-2-29
电面:
一共两轮,每一轮45分钟,具体问题不记得了,涉及到ML的基本知识,还有会写一些简单代码,总体不难

2017-2-8 applied scientist
有沒有完成某項任務但是結果超乎預期的經驗,
大約講了研究中原本預定某個方向, 結果意外發現另一個model (model A)效果很好而深入研究,
投了結果reviewer回應不錯應該會上 etc, 接著問, 為什麼會考慮model A 等等圍 繞研究的問題
接著轉到coding, leetcode 四八零, 沒刷過, 先直覺講了 brutal-force 的細節 跟 time complexity,
講完立馬覺得可以改善, 又提出暫存前一次排序結果的方法, 然後開始寫

coding 完 又回來問研究相關的問題.
最後又問了machine learning 101:
1) 解釋深度學習的模型, 優點 etc
2) generative, discriminative models 的差異, 舉例
3) 解釋 generative adversarial networks, 讀過論文但沒用過, 大約講一下原理
4) 避免overfitting的方法, regularization, dropout, cross validation, early stopping etc
5) 兩個模型, 分類正確率分別是 80% 與 81%, 可以說81%比較好嗎? 為什麼?

weighted accuracy (WA) vs un-weighted accuracy (UA),
如果存在class imbalance, UA才能選出不會biased to big class的模型
(這邊被隨口追問一下怎麼前處理data of unbalanced class distribution: random sampling, class weights etc)
另外要考慮測試樣本數是否significant, test data diversity etc. vis


2018-9-18
Research Scientist电面:
1. Principle上的经典behavior question: Describer a time when you over promise but under deliver
2. 什么是SVM.
3. 什么是Random Forest,怎么bagging,和Decision Tree有什么优劣,哪个bias小,哪个variance小
4. 什么是overfitting,L1 L2 regularization各有什么优劣,数据sparse的情况下用哪个
5. generative modelling 和 discriminative modelling有什么区别
6. 写点简单代码,update 一串数据的均值和标准差

2018-7-20 DS
详细介绍我现在做的项目
一道BQ(recruiter如此强调BQ,我不得不好好准备了一下)
前面几个答挺好,结果最后一道coding题跪了,实在是自身实力不行
给一个只有01的矩阵,把所有上下左右方向相邻的1都归为一组,每个组一个值,比如假设一共可分为三组,第一个组里都是1,第二个组里都是2,。。。顺序无所谓,只要区分开各个组就行,先问我打算用什么data structure,然后问我解题思路,乍看挺简单,想了个idea,后来发现都不work,开始紧张,想别的idea,还是不work,然后到时间了没做出来。后来面试官说这个题可能对我来说太难了。因为他出题前就问我coding怎么样,我就说仅限于Data Science相关的scripting,CS相关的算法或OOB类的编程开发不行,但他还是给我出了这个算法题,估计在算法题里是个很简单的题。。。
number of islands: https://leetcode.com/problems/number-of-islands/description/
本来准备了很多deep learning和nlp相关的内容,却都没有考。


2018-7-14 DS
首先介绍了一下自己的学历背景技能等等。

然后要我描述一个你做过的Project,我讲了一个之前做的marketing相关Project(主要用SAS),从拿到数据一直讲到写report和presentation。
接下来的问题是拿到data之后通常都会先做什么,我说了先观察,清理,然后做一些transformation方便下一步建模(不知道说的对不对,求指点)

然后问了我一个SQL问题,需要从database里得到每个账户在今年的总消费额,每个商家今年的总营业额和另外一个啥记不清了……
var有id, marchent, date和amount, 我只说了需要用到select,sum, group by和where然后说了一些关于时间的statement,但是说不出完整代码来(码力不足)
最后问了我一下有没有tableau经验。


2018-8-1 DS
他也是先跟我互相了解彼此背景经历, 然后说sql问题, 然后说是case study. 但是我跟他在第一部分里就花了十几分钟 sql问题又耽误了一阵, 所以最后case就没问我了 那会儿感觉特别不好觉得肯定挂了 现在看来的确是。 sql问题估计跟楼主的完全一样:
一个table 三个column: country/number of customer/sales per person 然后让你求每个国家的人均sales。
这个问题一上来有点蒙, 因为第一次见到把sales per person 也放到column里面的,所以说白了这个题目本身很简单, 但是我当时有点紧张就写了subquery 然后折腾了半天他看有点慢就提示我能不能写个快一点的简洁的答案。我才突然意识到两个sum相除就完了。。。唉。。。造福后人吧 大家加油投加油面!

note 主要是他的每一行的country可以有很多个相同的, 比如前两行都是USA, 后三行是Canada. 围观我们@1point 3 acres
大概写出来就是:
select country, (sum(Num_of_Customer * Sales_per_person) / sum(Num_of_Customer)) AS AVG_Sales_per_person
from table
group by country


2018-8-15 DS
电面两轮,每次30分钟,自我介绍,问下简历上用的技术,然后1-2个简单SQL题,1-2个case study,比如想做market campaign,怎么吸引用户,怎么提升用户体验, etc。
SQL和一个case study
SQL, 一些基本建模concept, 一些基础ML方法,用什么feature之类的

Onsite 6轮,和电面非常类似。问的问题比较简单,business case study 见仁见智了。总体来说不难。
usiness case和sql, python python非常非常简单只是看看你是不是真的用过没有任何算法 business case基本上都和visa要解决的问题相关 有一个无关是标准的consulting case但是不难

2018-2-19 applied scientist
开头先问了PhD阶段的research和paper, 然后是实习的project, 接下去是.1point3acres网

1. machine learning / deep learning 问题, 非常考察基础知识和细节 (unbalance data / evaluation / ML design and modeling / neural network / HMM ... ),. more info on 1point3acres
总共大概问了45分钟。

2. coding, 比较简单的关于binary tree的算法题, 大概就10分钟。
最后还问了个behavioral question。

第二轮技术面试
. from: 1point3acres
一个小时,全部是coding。 大概类似于leetcode上 binary search 和 dfs 的那些题(好像不是原题)

2018-9-7 DS
上来先Intro+Resume 介绍自己做过有关data的project. 牛人云集,一亩三分地
- Why this position?

Project相关Logistics Reg
问了一堆Logistics Reg相关的问题,比如为什么选log reg,怎么选的independent variable
问会clean data吗?
How to deal with missing value? outliers?
一道SQL题,超简单的基础SQL
. 一亩-三分-地,独家发布
然后让用ML建模
给了一个situation,让选出AWS用户中unpaid的那些account,刚开始不太理解unpaid
问了给什么数据,分析了一下
最后问了怎么validation model,怎么确定这个模型可行之类的

2017-11-25 ds
电面:一个台湾小哥,人挺好的。主要问了三类问题:以前的工作,machine learning基本知识,leadership principles。几个具体的问题:- SVM是啥?为啥用这个?. 1point 3acres 论坛
- maximum likelihood vs maximum a posteriori?啥区别?
- generative approach vs discriminative approach
- 工作中有没有过冲突?怎么解决的

2018-2-17 DS
1. 介绍自己最近的一个工作project。对每个部分环节问的都很细,data cleaning, data preprocessing, feature extraction, model evaluation。Word2Vec相关内容,是否用Deep learning的一些算法等等。
2. 数据建模
如果给了一堆数据,然后发现plot出来的结果是个有噪声的sine 函数。怎么根据数据来训练模型。开始的时候不是很明白问题的意思,一直没太回答到点子上。后来面试官有引导,然后往regression的思路上靠。要写出推导函数 (optimization function, derivative 等),怎么训练参数,如果解决overfitting等问题。
model: Y = a+SINE(bX + c), here a, b, c are parameters.
optimization/cost function: mean squared error 1/m * sum(y - y_pred)^2
use gradient descent to minimize optimization (first derivative needed)
overfitting can be solved by regularization.

2017-02-13 DS
She started with intro about the company and the position for about 5 min, followed by asking the following questions:
1, why do you think you are a good fit for this position?
2, Tell me about your previous data experience.
3, In your resume, you mentioned using 'machine learning and statistical analysis to identify key DNA feature', tell me more about it?
4, You mentioned random forest in your answer, tell me why do you use that?. from: 1point3acres
5, what kind of parameters did you tune in random forest?
6, how do you define the accuracy? -- use cross validation
7, how do you choose between random forest and linear regression given that you want to figure out the feature importance?
8, give me a possible graph you will sketch if Amazon want to know whether the products are evenly distributed among all warehouse?
9, what is p-value?.留学论坛-一亩-三分地
10, how would you test whether Amazon Prime is good or not? -- detailed answer with A/B testing
11, two sql questions? -- one self join and one select name starting with oc (oc%)


2018-9-5 Research Scientist
面试者是senior NLP scientist,45分钟,30% tell me a time when..... 70% ML questions
30% tell me a time when.....: 亚麻一大特色,要熟练掌握那14条LP,我一开始觉得很傻,后来觉得真心很有道理的LP,和Amazon的人接触过程中,能感觉到他们真的在用这些东西。
70% ML questions:天南海北的侃(测试ML知识广度),会follow up很多问(测试ML深度)。从basic stats,到各种test,distribution到各种regression,classification,到feature selection,overfit等等是大概广度的topic,每一个topic会不断follow up问到很具体理解和实现:绝个例子:PCA宏观理解->实现原理->PCA和SVD关系->为什么用SVD实现更好->latent analysis方法比较->other type of matrix decomposition. 留学申请论坛-一亩三分地
没有特别考NN,或者NLP,只是宏观讲了讲。感觉很注重基本功。

猜你喜欢

转载自www.cnblogs.com/ffeng0312/p/9938265.html