干货干货干货!2020年 大数据/java面试注意事项和项目内容

一:注意事项

写简历注意事项(准备两份,一份发给别人的,一份留给自己的)

1.薪资要写的高一些

2.工作经历:一般在一个公司待两年,少于两年的话,可能就会问

为什么离职?(不要说上一家公司的坏处),

你在我这里能待多长时间?

人事可能会问其他的问题你的优点是什么?你的缺点是什么?(晚上睡觉比较晚,喜欢加班,平时比较懒…)

3.如果有工作经验, 人家可能会问离职了么?有没有离职证明?(主要是公司怕吃官司,有了离职证明就没事了,哪怕离职证明是假的)

4.职业技能如何写?

要把特别强的项目放在前面,前面两个可以写精通和掌握的(hive的分桶,hive如何处理数据倾斜的,hive的压缩格式,hive的动态分区),后面写熟悉的,把工作的内容限定在一个小框框内,其他的就是了解,知识体系应该是T型的人家一问都答不上来(不要让面试官觉得什么都会,什么都答不上来),重要的是大数据的框架,存储(Redis),ETL的存储,这些东西要弄通透(比如数据清洗–>对于hive很熟,或者hbase),R语言,Python,Flume等问题不大,都是小问题,可以分成几个大的模块或者树形结构,一定要把重要的熟练的放在前面(类似java多线程io编程等),不太好的放在后面

在中国和国外的面试是不一样的,在中国面试的时候是多少,进去就是多少,如果不是太水的话,是不会让你出来的,但是在国外就不一样了,在中国就是一锤子买卖。

要夸大优化,不要写的太普通,要与众不同,写简历里面要有卖点,简历中挖坑,让别人去问。面试的时候不管说的对还是错,都要说的斩钉截铁。(为什么你这个跑的这么慢呢?服务器配置比较low,业务比较复杂,没有做优化。为什么跑的这么快?我服务器配置好,业务简单,优化的好)

大的公司会问一些思考的问题,小公司问一些填空题。

面试的时候就是一个心态,两个人是聊技术,是沟通,是交流,不要让面试官老问我,如果回答的结结巴巴,人家问的越问越简单那基本就没戏了,越问越深就是试你的功夫的深浅

5.大数据的项目4-6个月

很多个版本都是要更新迭代的,时间的长短–项目做的粗细

项目名称 酒仙网日志分析系统V2.0版本,带一个版本,显得比较高大一些,

项目描述,干什么的,用来解决什么样的问题

开发环境与技术,

项目职责,是别人关心的,不要写的太细,你写的有些技术比如说Flume,人家可能会问(这里面用Flume,你为什么要用Flume?)

绝大部分精力一般都放在第一个项目上,一些数据(开发周期,项目长时间,服务器配置,日浏览量等等)都估测好,面试的时候要想一下在说,有感情的朗读课文,

6.自我评价

工作比较热心,积极向上的

7.简历往哪里投放?

首选,boss,拉钩

其次,猎聘,智联

8.笔试题,有些答案已将做了,背下来

9.面试要善于总结,每天安排好上午一家,下午一家,准备两周,面试两周,面试的时候,第一周把不怎么想要去的公司放在第一周,练一练手,第一周保持平静的心情,统计一下市面上哪些东西问的比较多

10.笔试题带回来,就业信息

二:项目部分

数据的产生:(我们需要了解的)

1.网站的日志,游戏的日志,APP的日志。

2.电商订单。

3.保险,银行的数据。

4.网络报文。

5.运营商的项目,网络信息,通话记录,上网记录。

数据采集:

1.flume采集,flume可以监控一个目录,一个端口。

2.sqoop数据迁移工具,从RDBM迁移到Hadoop集群。

3.前期的测试时直接从甲方拿的硬盘,系统开发完成后,专门派人过去做实施。

4.ftp传输,慢。实时性强的需求做不了。

flume+kafka +storm/sparkstreaming

kafka+flume +sparkstreaming

比如说,日活10w,需要1w台服务器来支撑。

一般情况下,我们需要部署3W台服务器。

数据采集:Flume NG Logstash sqoop

数据存储:HDFS HBase Hive Kafka

数据分析:Hive MR Spark streaming SQL Storm

数据展示:Echarts Excel表格

网站点击流项目:

项目名称:可以写一些电商网站,旅游网站,APP的名称。名称尽量高大点!!不要带网站的名字。但是我们需要了解这家网站的主营业务,网站不能是淘宝,京东,亚马逊这些大网站,尽量找一些中小型的网站。

找一些不是很出名,但是网站看着还是很正规的电商平台。

ASS(B2B电商网站用户行为智能分析系统)

用户Session智能分析平台

项目所用技术:Flume/logstash,HDFS,MapReduce/Spark,Hive/SparkSQL/impala(交互式查询,速度快,基于内存),

Mysql,Sqoop,Zookeeper,SSH。

每一个框架的版本。

CDH还是HDP,不可能用Apache的。

CDH,版本5.3~5.12,选一个记住。5.8

HDP,版本2.4~2.8,选一个记住。2.6

项目周期:写好日期,2019.6-2020.1。时间是6-8个月。

项目分析:讨论项目的需求,以及架构的选择,不只是选择框架,还要选择版本,因为版本的更迭,导致功能的不断完善,我们的项目中可能会用到某些功能。

搭建集群:1~2周。7台机器,搭建完成,下午开会,需求改了, 集群版本不一样了,rm -rf /opt/*

项目开发:5个月。一部分时间是你自己做开发的,一部分时间是修改自己写下的bug,一部分时间是打滑的。项目进行到一半,项目经理百分之百会给你改个需求,或者加需求,或者要求优化你的程序。

代码审核:我们写好的代码,要讲。一周或者两周进行一次代码审核。

项目架构:flume+HDFS+MR+HDFS+Hive+sqoop+mysql

项目描述:主要就是指标:

职责描述:

集群搭建+集群维护+需求分析+hive优化+架构选型

1.将Nginx中的网站原始日志使用flume采集到HDFS中,通过shell脚本定时监控。

2.通过MRjob清洗脏数据,并对Session进行局部聚合,解决聚合中发生的数据倾斜问题。

3.用hive进行网站的pv,uv,用户注册数,用户留存率进行多维度分析统计

集群规模:

数据量100G,日活100W,1人1天100条 1亿条数据,

服务器配置:10台服务器  8T  128G

建模就是指的创建表,为了后期写sql脚本分析数据。一个好的模型,能让你事半功倍。

首先整理表:几张表,表的名字,18_log_user_viesit_sys_…_logtable,内容,也就是字段大概其有些什么。

别人可能会问你,为什么这样建立这个模型,为了方便我们后期写sql进行分析。具体的举一个例子

XX网站指标:至少十五个稍微复杂点的指标,不算常见的这些PV,UV,转化率这些指标。

要求是,知道怎么算出来的,并且sql的关键字要记住。

框架的版本。

1)基础分析(PV,IP,UV)

 趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。

 对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。

 当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。

 访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

来源分析

 来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。

 搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量的的角度,帮助用户了解网站的SEO、SEM效果,从而为制定下一步SEO、SEM计划提供依据。

 搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO方案及SEM提词方案提供详细依据。

 最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

 来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

 来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

 来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

3)受访分析

 受访域名:提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。

 受访页面:提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。

 受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动,从而及时排查相应问题。

 热点图:记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持将一组页面设置为”关注范围”,并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。

 用户视点:提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不仅仅是拥有鼠标点击行为。

 访问轨迹:提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。

4)访客分析

 地区运营商:提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。

 终端详情:提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。

 新老访客:当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。

 忠诚度:从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。

 活跃度:从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。

5)转化路径分析

转化定义

·访客在您的网站完成了某项您期望的活动,记为一次转化,如注册或下载。

目标示例

·获得用户目标:在线注册、创建账号等。

·咨询目标:咨询、留言、电话等。

·互动目标:视频播放、加入购物车、分享等。

·收入目标:在线订单、付款等。

转化数据的应用

·在报告的自定义指标中勾选转化指标,实时掌握网站的推广及运营情况。

·结合“全部来源”、“转化路径”、“页面上下游”等报告分析访问漏斗,提高转化率。

·对“转化目标”设置价值,预估转化收益,衡量ROI。

路径分析:根据设置的特定路线,监测某一流程的完成转化情况,算出每步的转换率和流失率数据,如注册流程,购买流程等。

Hive分析电商指标:

第一步(筛选Session):

1.搜索过某些关键词的用户

2.访问时间在某个时间段内的用户

3.年龄在某个范围内的用户

4.职业在某个范围内的用户

5.所在某个城市的用户

第二步:

1.统计出符合条件的session中,访问时长在1s3s、4s6s、7s9s、10s30s、30s60s、1m3m、3m10m、10m30m、30m以上各个范围内的session占比;访问步长在13、46、79、1030、30~60、60以上各个范围内的session占比

session访问时长,也就是说一个session对应的开始的action,到结束的action,之间的时间范围;还有,就是访问步长,指的是,一个session执行期间内,依次点击过多少个页面,比如说,一次session,维持了1分钟,那么访问时长就是1m,然后在这1分钟内,点击了10个页面,那么session的访问步长,就是10.

2.获取点击、下单和支付数量排名前10的品类

计算出所有这些session对各个品类的点击、下单和支付的次数,然后按照这三个属性进行排序,获取前10个品类。

3.获取排名前十的商品品类中点击量最多的三个session。

点个赞8~

 

猜你喜欢

转载自blog.csdn.net/artiil/article/details/106997714