1、在kylin服务机器上hbase shell 作为存储Hbase集群的客户端,配置需要存储集群的客户端配置,cdh 的hbase配置路径在/etc/hbase/conf下,hbase-site.xml 中不能包含hdfs的信息,不然计算集群会使用Hbase的hdfs配置,只包含zk的信息即可
2、hadoop 的配置包含计算集群的所有配置,需要在hdfs-site.xml配置文件中添加存储集群的hdfs的namespasece地址,因为计算集群构建cube之后,会把结果转换成HFile,直接复制Hfile文件到存储集群的hdfsr
3、可以使用kylin.env.hadoop-conf-dir:指定 Hadoop 配置文件目录,如果不指定的话,获取环境中的 HADOOP_CONF_DIR,但是不能指定hbase的配置文件,因为kylin是通过hbase shell方式访问存储集群的hbase的
步骤一:分布部署Hadoop(MapReduce计算集群,以下简称计算)集群和HBase(HDFS存储,以下简称存储)集群;两套集群环境的Hadoop核心版本要一致,分别有各自的HDFS、Zookeeper等组件;
步骤二:在准备运行Kylin的服务器上,安装和配置Hadoop(计算)集群的客户端;通过 hadoop , hdfs , hive , mapred 等命令,可以访问计算集群上的服务和资源。
步骤三:确保Hadoop(计算)集群和HBase(存储)集群的网络互通,且无需额外验证;可以从Hadoop(计算)集群的任一节点上,拷贝文件到HBase(存储)集群的任一节点;
步骤四:在准备运行Kylin的服务器上,安装和配置HBase(存储)集群的HBase客户端;通过 hbase 命令,可以访问和操作存储集群的Hbase
步骤五:确保在准备运行Kylin的服务器上,通过hdfs命令行加上HBase集群NameNode地址的方式(比如hdfs dfs -ls hdfs://pro-jsz800000:8020/),可以访问和操作存储集群的HDFS。
步骤六:为了提升Kylin查询响应效率,准备运行Kylin的服务器,在网络上应靠近HBase集群,以确保密集查询时的网络低延迟;
步骤七:编辑conf/kylin.properties,设置 kylin.hbase.cluster.fs 为HBase集群HDFS的url,例如:kylin.hbase.cluster.fs=hdfs://nameservice3
最重要的事情:检验是否有人看我的博客,检验是否有人看我的博客、检验是否有人看我的博客