2017-实习:机器学习、大数据开发、研发等岗位面经

前言

刚过完年,就开始到处找实习了,可惜后来发生了一些事情,耽误了春招实习,也完全改变了人生方向。。。

后来到处找散招的实习以及参加春招的暑假实习生笔面试,总共经历了十家公司的面试,相比我秋招的二十家面试少了一半,呵呵哒。。。

同时强烈建议和欢迎大家看我的秋招面经帖子,里面的干货比这篇实习面经要多很多!
点击链接如下:
2017-我的秋招之路:机器学习/算法工程师(含大量面经)
或者:
http://blog.csdn.net/circle2015/article/details/78448196

##算法/研发岗位实习生面经##
高德地图 (数据挖掘实习生,电话一面,2017.3.16,15min)
1、 一个文件,每一行是一个浮点数,统计均值和方差,要求复杂度:时间O(n),O(1)
2、 一个句子文件,一个关键词文件,根据关键词决定是否保留该行内容。模式匹配,trie 树,文本词频统计,较少不必要的字符串比较。它的查询效率比较高
3、 一个文件,每一行都是x,y文件,找出重复top1000,按照重复次数从小到大进行排序,
要求用linux命令或者shell命令
提示:cat 文件 uniq –c | sort –kl, lnr |head -10
其中sort:对单词进行排序
uniq –c 显示唯一的行,并在每行首加上本行在文字出现的次数
sort –k1,lnr 按照第一个字段,数值排序,且为逆序

百度 (平台研发实习生,科技园3号楼一面,2017.3.20,30min)
1、 介绍python的匿名函数,即lambda函数
2、 python中单下划线和双下划线的区别,能否被外部访问?不能,单下划线_代表保护变量,只允许本身和子类访问;双下划线__代表私有变量,只允许本身访问,子类不能。
3、 解释LR的原理?
4、 算法题:字符串转整型,整型转字符串,剑指offer
5、 概率题:红黑各50个球,分别放进2个大袋子,怎么放才能使得从两个袋子中取得红球概率最大。
百度 (平台研发实习生,二面女面试官,2017.3.20,30min)
1、 Python中copy和deepcopy的区别?
2、 Tcp和udp的区别?
3、 Tcp的三次握手,为啥三次?
4、 从浏览器输入www.baidu.com到展示网页的解析过程?
5、 用匿名函数从字典中抽取键,一行代码,不能用keys()。[I for I in dic]或者map(lambda i:I,a)
6、 字符串的倒置,剑指offer
7、 Linux中递归删除当前目录以及子目录里面的.o文件。find . –name ‘.o’ –exec rm –f {};
8、 Mysql中授权grant怎么使用?grant 权限 on 数据库 to 用户;grant select on test.db.
to 用户名@ip地质
百度 (平台研发实习生,三面经理面,2017.3.20,20min)
1、 Linux中怎么查看服务器的核数和内存。cat /proc/cpuinfo grep MemTota/MemFree /proc/meminfo
2、 对当前目录中的文件按照时间进行排序。ls –lrt(升序) -lt(降序)
-l 以长列表方式显示
-t 按照修改时间排序
-r 反序,reverse
3、 一道python的题:
a=[1,2,3,4,5]
for I in a:
a.remove(i)
print a
求打印a的结果,[2,4]

猎豹移动 (推荐算法实习生,QQ视频一面,2017.3.30,40min)
1、 Spark中reduce.bykey和group.bykey的区别?
2、 Spark中数据倾斜的问题,join.k一个很大,一个很小,怎么解决?ps:没听懂题目。。。
3、 介绍下实验室项目中用到的DBN算法和手写下BP反向推导公式
4、 删除链表的倒数第k个节点,参考剑指offer
5、 Linux命令:
有一个文件,内容是:abc 10.2 4 2017-03-30 14:36:00
abc 10.2 4 2017-03-29 14:30:00
用一行命令从文件中提取不重复的day内容。
6、 最近在看啥书。。。。

猎豹移动 (推荐算法实习生,电话二面,2017.4.14,40min)
1、 Spark和Hadoop中map/reduce的区别?
2、 逻辑回归和 softmax回归的区别?
3、 Linux命令:查看命令、查看机子内存、查看当前路径

猎豹移动 (推荐算法实习生,电话三面,2017.4.17,30min)
1、 Spark和Hadoop的区别?
2、 Hadoop中shuffle的过程,数据排序算法?快排?其实是堆排序;对于小文件的合并,应该用哪种排序?
3、 Spark中shuffle的过程?
4、 重复利用RDD时,两种可持久化:硬盘、内存;是怎么选择的?怎么决定多少到内存,多少到硬盘?
5、 持久化优化时,序列化的注意事项?有自带的java序列化,对于大文件的序列化,不建议采用自带?会用哪种?
6、 Spark中stage是怎么划分的?怎么把一串操作转化成stage?
7、 采用什么方法优化shuffle过程?
8、 Spark中reduce.bykey和group.bykey的区别?
9、 factor、kernel和并行度三者参数的区别?怎样调节?调节并行度?没听明白。。。

搜狐大数据中心 (研发工程师实习生,搜狐媒体大厦一面,2017.3.31,30min)
1、 将数组2,1,4,3,5 ,从小到大进行排序
2、 手写二叉树的后序遍历
3、 了解jvm吗?堆和栈的存储方式有啥区别?new对象存储在堆中,变量赋值存储在栈中。
4、 Mysql有哪些性能优化?
减少查询字段、表关联尽量用主键、查询条件尽量避免模糊查询、避免使用排序字段、排序字段尽量用主键、尽量使用限制查询条件、查询条件使用有效索引。
5、 HBase的基本概念
6、 介绍了实验室项目和DBN算法

汽车之家 (大数据技术实习生文本方向,现场一面女面试官,2017.4.13,30min)
1、 手写快速排序和二分查找
2、 输入s,从一个大小为N的数组中找到任意和为m的组合,不能重复
3、 Linux命令,从一个map.dat文件中统计行数,再统计有多少行中含有指定内容’redis’
4、 逻辑回归的决策函数怎么写?

汽车之家 (大数据技术实习生文本方向,现场二面,2017.4.13,30min)
1、 这个面试官小哥屌屌的样子,说下面要写的代码不能有一点问题,否则,挂
2、 堆排序,非递归的中序遍历代码
3、 找规律编程求解第N个数字:
1,11,21,1211,111221,312211,13112221,1113213211
我估计是小哥写错数字,因为是找到连续数字的个数的题,算法常见题
4、 Word2Vec的原理以及效果好的原因?
5、 逻辑回归的假设?即y的分布。Lr符合伯努利分布、线性回归符合高斯分布
6、 逻辑回归的目标函数?

ETCP (算法实习生,电话一面,2017.4.13,47min22s)
1、 非常非常详细的介绍了实验室的项目,从头到脚的介绍了一遍
2、 讲解下DBN和lr算法等等
3、 因为是电面,所以没法写程序。

腾讯 (基础研究,校招实习生一面,2017.4.18,30min)
1、 是否了解NLP?讲解下word2vec原理以及不同函数
2、 实验室项目用到的DBN算法原理以及RBM的目标函数?RBM的全连接是层内无连接,其他无连接的还有哪些?
3、 逻辑回归lr的目标函数和梯度推导公式
4、 写了个堆排序,紧张的写错了。。

融360 (数据算法助理实习生,现场一面,2017.4.25,30min)
1、 讲解实验室项目,数据的格式以及怎么进行预测?
2、 算法题:
从数组:4 1 5 6 2 8 3 7 7 中找出x+y=11且下标查最大的两个数以及间隔?当数据是有序时又该怎么找?
3、 逻辑回归是线性模型吗?是线性的!
4、 ROC曲线为啥是曲折的?它的x和y坐标是什么?

商汤科技 (数据挖掘实习生,现场一面,2017.4.25,30min)
1、 一个光头小哥面试官!基本没有问简历上的项目,也几乎不问机器学习算法。。
2、 Hadoop汇总NameNode和DataNode关系和架构?
3、 编程:Spark中采用DataFrame和rdd从数据(a,b,c,d)中 抽取a=0和b>3的所有数据
4、 字典可以采用平衡二叉树和hashmap,那平衡二叉树有何优势?
5、 算法:求最长递增子序列(LIS),经典的动态规划

发布了31 篇原创文章 · 获赞 41 · 访问量 13万+

猜你喜欢

转载自blog.csdn.net/circle2015/article/details/78514610