初探数据平台

1.Yarn 上面有哪几种资源调度策略?并且如何配置?

Hadoop规模来看
计算资源管理
1)Yarn 动态资源
2)Spark on Yarn 静态资源调度 动态资源调度
Spark 作业一般跑在集群资源好的机器上,一般好的集群会打标签进行区分:例如spark001 hadoop001机器名

3)Spark Job  每次触发一个Action 会产启动一个Job运行。
   如果跑几次失败,是否能够有一种机制能够推测执行
   推测执行:就是老在一个地方跑不动,次数超出设定的阈值,spark2.2以后有一个backlist 黑名单的概念。
            就会到其余的节点运行

4) spark executor : Job core 是否能够自动适配
    问题:一个partition处理的数据太多了,写出去时候发生OOM
        如何评估一个Partition 放多少数据?
        设定每个partition处理多少数据即可。


5)抢占 :作业的优先级
6)调度机
    spark on yarn client
    driver 运行在调度机上
    同一分钟有1000个作业在跑,意味着这1k个作业都在调度机上
    1k个作业都在调度机上资源不好隔离,就引入spark on docker k8s

ps:元数据:描述数据的数据
Hive元数据:描述Hive表的一些信息

数据采集:
1)RDBMS
2)FTP
3)NoSQL
4) S3/oss
5) orc/parquet

落到 ===> HDFS/Hive

数据源管理:
domain:
名称
类型
URL
username
password

是否连接成功

功能:domain 的CRUD 以及测试是否成功

任务:静态的概念

调度:执行任务

sqoop import
--connect jdbc:/mysql://localhost:3306/sqoop \
--username root \
--password root \
--table emp \
--mapreduce-job-name FromMySQLToHDFS \
-m 1 \
--delete-target-dir \
--columns 'EMPNO,ENAME,JOB,SAL,COMM' \
--target-dir EMP_COLUMN_WHERE \
--fields-terminate-by '\t'
--null-non-string '0' \
--null-string '' \
--where 'SAL>1000'

猜你喜欢

转载自blog.csdn.net/liuge36/article/details/102809275
今日推荐