mpp数据库的坑

公司由于业务需求，需要把项目放到hwy上，原来公司的gp数据库也需要迁移到hw的mpp数据库，但是在迁移的过程中发现这个hw数据库真是各种坑啊，有一些报错不是一直存在的，而是偶发的，这可苦了我们这些搬运工，在此记录一些使用中发现的问题。

1.由于hw库的tid字段是保留字段（什么鬼），所以把数据库和代码中相关的部分全部改成另外一个字段代替；

2.在公司部署的hw库不知是安装问题还是库本身自带的问题，发现了许多问题：

2.1. navicat经常断开连接，这个应该是配置文件没有设置连接时长导致的；

2.2. 好多时候插入不了数据，select nextval('schemaname.sequencename') 也获取不了序列值，总是报同一个错误：org.postgresql.util.PSQLException：ERROR：Can not get current value of the sequence,查了好久都没有找到解决方法，于是重新把表删除重建，发现还是不行；

于是猜测是不是由于序列的原因，就把序列字段修改，如shard_id改为shard_id1，重建表后删除，再次以shard_id作为序列重建表，神奇的发现又可以插入数据，及获取序列值了。so why?

查找之前用命令导出的mpp数据库脚本，发现创建表语句：

CREATE TABLE tablename(

col1 bigint NOT NULL,

col2 character varying(100) NOT NULL,

col3 integer,

col4 timstamp(6) without time zone,

col5 text...)DISTRIBUTED BY (col1);

COMMENT ON TABLE schemaname.tablename is 'haha';

COMMENT ON COLUMN schemaname.col1 is 'col1';

...

后有单独的创建序列语句：

CREATE SEQUENCE sequencename

increment by 1

no maxvalue

no minvalue

cache 1;

alter sequence sequencename OWNED BY tablename.col1;

原来序列是单独创建的，而之前的gp创建表语句：

CREATE TABLE tablename(

col1 serial8 NOT NULL,

col2 VARCHAR(100) NOT NULL,

col3 int4,

col4 timstamp(6) ,

col5 text...)

WITH (OIDS=FALSE);

COMMENT ON TABLE schemaname.tablename is 'haha';

COMMENT ON COLUMN schemaname.col1 is 'col1';

序列是在创建表时自动创建的，而且貌似hw库的varchar类型字段长度要设置的比gp库的varchar长度大3倍，否则插入数据时可能会出现value too lang的报错。。。

---------------------------1029----------------------------

3. 在使用嵌套查询时，可能会陷入长时间等待：

在内层循环中同时使用聚合函数和limit关键字时，查询会卡住：

select * from(select a,b count(c),sum(d) from tb group by a,b desc limit 10 offset 0)tp

规避方法：1.把limit关键字放到外层查询；2.去除外层查询，不使用嵌套；

至于为什么会陷入等待，尚不清楚。

4. 判断字段空值时，空字串不可用：

如果要判断某个字段值为null或空值，原来在pg库可以这样查询：

select * from tb where a is null or a='';

但是在迁移到hw库后这种判空方式不再生效，当a=''或a!=''时查询的数据量都为0，最后只能改为coalesce(a,null) is null 的方式来判空，coalesce函数是判断字段为空时将字段值视为设定的值，这里我设定为null；

猜你喜欢