大数据离线数据导入集群方案

大数据其实有很多时候回碰见离线数据,比如常常有标准或者业务系统离线资源等等,这些往往会令我们比较头疼,倒不是多难,而是数据的导入比较繁杂,有时候都不完全是结构化数据

这里我给大家分享一下我遇到离线数据时的导入方法

场景一

如果你用的是原生Apache或者是HDP等集成技术,数据集群的数据管理工具是hive时,那么你完全可以把离线数据处理一下,比如空值补充 \N或者是其他的处理,把数据整理成你想要的样子,上传hdfs,之后load

这里也和刚接触大数据的朋友解释一下,在hive底层的架构中,如果你是直接null,那么hive会将它视为一个值为null的字符串,因为hive的底层用的是 \N 区分的空值

当然你建立表之后也可以通过修改表元数据,从而修改空值的识别方式,语句如下

alter table  mytable   set serdeproperties (‘serialization.null.format’ = ‘null’);

场景二

如果你用的是公司自己的产品,那么你先问问运维或者一、二线研发,问问支不支持如xlsx等其他形式导入数据,或者有没有相关的可以使用的数据横向同步的产品,如果有而且操作不是很麻烦那就用,如果没有或者不好用,那你就找一个可以操作的数据库,把数据用sql语句导进去,之后抽取就可以了

猜你喜欢

转载自blog.csdn.net/dudadudadd/article/details/113355975