一.CDH集群组件版本调研
现有大数据集群使用的是CDH 6.1.0版本,查看官方文档[1],可以查找到各组件的版本信息。
Component | Component Version | Changes Information |
---|---|---|
Apache Avro | 1.8.2 | Changes |
Apache Flume | 1.8.0 | Changes |
Apache Hadoop | 3.0.0 | Changes |
Apache HBase | 2.1.1 | Changes |
HBase Indexer | 1.5 | Changes |
Apache Hive | 2.1.1 | Changes |
Hue | 4.3.0 | Changes |
Apache Impala | 3.1.0 | Changes |
Apache Kafka | 2.0 | Changes |
Kite SDK | 1.0.0 | |
Apache Kudu | 1.8.0 | Changes |
Apache Solr | 7.4 | Changes |
Apache Oozie | 5.0.0 | Changes |
Apache Parquet | 1.9.0 | Changes |
Parquet-format | 2.3.1 | Changes |
Apache Pig | 0.17.0 | Changes |
Apache Sentry | 2.1.0 | Changes |
Apache Spark | 2.4 | Changes |
Apache Sqoop | 1.4.7 | Changes |
Apache ZooKeeper | 3.4.5 | Changes |
二.Apache Atlas各版本对应的大数据组件调研
Apache Atlas目前有三个主要的版本,分别为0.8.x, 1.x, 2.x,官网没有直接给出各组件的版本,可以从github的源码[2]pom文件中找到各组件对应的版本
(1)Apache Atlas 0.8.x/1.2.x 对应的大数据各组件版本 [3]
<sqoop.version>1.4.6.2.3.99.0-195</sqoop.version> |
<hive.version>1.2.1</hive.version> |
<calcite.version>0.9.2-incubating</calcite.version> |
<hadoop.version>2.7.1</hadoop.version> |
<hbase.version>1.1.2</hbase.version> |
<solr.version>5.5.1</solr.version> |
<kafka.version>1.0.0</kafka.version> |
<elasticsearch.version>5.6.4</elasticsearch.version> |
<kafka.scala.binary.version>2.11</kafka.scala.binary.version> |
<curator.version>2.11.0</curator.version> |
<zookeeper.version>3.4.6</zookeeper.version> |
<janus.version>0.3.1</janus.version> |
(2)Apache Atlas 2.x 对应的大数据各组件版本 [4]
<hadoop.version>3.1.1</hadoop.version> |
<hbase.version>2.0.2</hbase.version> |
<solr.version>7.5.0</solr.version> |
<hive.version>3.1.0</hive.version> |
<kafka.version>2.0.0</kafka.version> |
<kafka.scala.binary.version>2.11</kafka.scala.binary.version> |
<calcite.version>1.16.0</calcite.version> |
<zookeeper.version>3.4.6</zookeeper.version> |
<falcon.version>0.8</falcon.version> |
<sqoop.version>1.4.6.2.3.99.0-195</sqoop.version> |
<storm.version>1.2.0</storm.version> |
三. Apache Atlas版本选则及源码编译
从CDH 6.1.0 各组件版本和Apache Atlas依赖的各组件版本中可以看出,CDH 6.1.0和 Apache Atlas 2.0的匹配度较高,应该选则Apache Atlas 2.0版本作为实验版本进行测试。
从官网可以下载Apache Atlas 2.0.0的源代码,参考[5]中的安装文档对源码进行编译打包即可。
四.虚拟机测试
测试环境
基础环境 | 版本 |
---|---|
VMWare WorkStation | 15 Pro |
OS | CentOS 7 |
JDK | 1.8 |
MySql | 5.6 |
选则测试的大数据组件版本
Component | Version |
---|---|
Apache Hadoop | 3.0.3 |
Apache Hive | 2.1.1 |
Apache Hbase | 2.1.1 |
Apache Solr | 7.4.0 |
Apache Atlas | 2.0.0 |
Apache ZooKeeper | 3.4.10 |
Apache Kafka | 2.0.0 |
[1]CDH 6.1.0各组件版本文档
[2]Apache Atlas源码网站
https://github.com/apache/atlas
[3] Apache Atlas release-1.2.0-rc3 pom file
https://github.com/apache/atlas/blob/release-1.2.0-rc3/pom.xml
[4] Apache Atlas release-2.0.0-rc2 pom file
https://github.com/apache/atlas/blob/release-2.0.0-rc2/pom.xml
[5] Apache Atlas安装文档