大数据复习

1.sql能力,最好到网上去搜一些经典的sql题来联系一下(比如:行列转换函数,去重的多种用法,分析函数rank over()等用法,漏斗模型,如何计算路径转化率)


2.hive调优(分两部分,第一部分hive参数调优,第二部分sql调优),主要是解决数据倾斜的问题。
3.etl工具用的是什么?kettle用过没有
4.linux命令熟悉,一些常用的linux命令要会用,还有给你一个字符串,如何截取你要的字段出来,可以现在网上搜一下
5.hivesql面临有的脏数据时如何清洗数据?有哪些hive函数可以用(regex_repalce,regex_extract,rlike的用法),hive中的常用正则表达式也要了解一下(留给你自己去查)
6.项目中遇到哪些问题:
    a.数据发散
    b.数据倾斜

猜你喜欢

转载自www.cnblogs.com/fengyouheng/p/10809409.html