tpc-ds基准测试案例-hive

环境条件及测试套件准备

  • Hdp-3.0.0
  • Hive-3.1.0
  • Hdfs-3.1.0
  • Maven,如果未安装在tpcds-build时,自动安装
  • 下载hive -testbench-hdp3.zip ,根据自己安装的环境下载对应的测试套件  https://github.com/hortonworks/hive-testbench

 

 

编译并打包相应的数据生成器

# unzip hive -testbench-hdp3.zip

# cd hive -testbench-hdp3

# ./tpcds-build.sh

 

生成数据和查询sql

# su - hdfs

$ export FORMAT=rcfile

$ bash -x tpcds-setup.sh 2 /data/tpcds-generate

FORMAT=rcfile:代表数据文件格式

2:代表生成10G数据

/data/tpcds-generate:代表生成数据的目录

 

上面用了hdfs去执行tpcds-setup.sh文件,会导致无法写入makefile文件,报错如下:

所以解压的hive -testbench-hdp3目录权限尽量给大一些。

最终成功的结果如下:

 

生成数据的案例

构建1 TB的TPC-DS数据: ./tpcds-setup.sh 1000

构建1 TB的TPC-H数据: ./tpch-setup.sh 1000

构建100 TB的TPC-DS数据: ./tpcds-setup.sh 100000

构建30 TB文本格式的TPC-DS数据: FORMAT=textfile ./tpcds-setup 30000

构建30 TB RCFile格式的TPC-DS数据: FORMAT=rcfile ./tpcds-setup 30000

 

 

测试查询执行

# su - hive

$ hive

hive> use use tpcds_bin_partitioned_orc_4;

hive> source query12.sql;

猜你喜欢

转载自blog.csdn.net/wangyijie11/article/details/89153401