大数据平台迁移相关

一、zk

法一:扩展zk节点
法二:zkcopy。若数据一直在变,那么有可能要停集群。分钟级别可接受

二、hdfs

hadoop自带的远程拷贝工具,distcp。一个map处理一个文件。可指定map数量。可事务也可非事务。
一般会执行两边,第二遍加-update,再合适一遍(ok就skip)。
是否同步权限也可设置
不能在线做

三、hbase

replication:灾备,备份库
copytable:需要停hbase。表复制。 可用于拷hbase历史表
export import:需要停hbase。export出来个文件(可存在hdfs),再在新集群里面import。
snapshot:停的时间较短。会出现快照后仍有storm把数据往里面写的情况,因此会倒好几次。打时间戳来保证有序。
distcp:怕数据不一致,因此还是要停掉hbase。多用于hdfs,因为有可能表未能恢复
importtsy&&bulkload:对于源数据是csv的数据

四、kafka

kafka重分布的脚本:按partition来。要停kafka
kafka mirrorMaker:从旧kafka集群消费,存到新的kafka里面

猜你喜欢

转载自blog.csdn.net/gohigher2018/article/details/80384299
今日推荐