GreenPlum中性能调优之数据倾斜

数据分布:

greenplum中数据分布情况直接影响到查询的效率,原因是greenplum架构是由性能最差的segment实例决定,所以数据分布不均匀会影响整个集群的性能。

检查数据的偏斜/倾斜情况:

SELECT * FROM gp_toolkit.gp_skew_coefficients WHERE skcrelname = 'table_name'; --查看skccoeff偏差系数
SELECT * FROM gp_toolkit.gp_skew_idle_fractions WHERE skcrelname = 'table_name';--查看空闲偏差系数:越小越好

查看数据分布情况:

select gp_segment_id,count(*) from table_name group by gp_segment_id;

重新平衡表数据:

如果表的分布键合理,直接重分布数据:

alter table table_name set with(reorganize=true);

否则重新调整分布键再执行重分布:

alter table table_name set distributed by (col1,col2...);

猜你喜欢

转载自blog.csdn.net/wangning0714/article/details/130704775