公司由于业务需求,需要把项目放到hwy上,原来公司的gp数据库也需要迁移到hw的mpp数据库,但是在迁移的过程中发现这个hw数据库真是各种坑啊,有一些报错不是一直存在的,而是偶发的,这可苦了我们这些搬运工,在此记录一些使用中发现的问题。
1.由于hw库的tid字段是保留字段(什么鬼),所以把数据库和代码中相关的部分全部改成另外一个字段代替;
2.在公司部署的hw库不知是安装问题还是库本身自带的问题,发现了许多问题:
2.1. navicat经常断开连接,这个应该是配置文件没有设置连接时长导致的;
2.2. 好多时候插入不了数据,select nextval('schemaname.sequencename') 也获取不了序列值,总是报同一个错误:org.postgresql.util.PSQLException:ERROR:Can not get current value of the sequence,查了好久都没有找到解决方法,于是重新把表删除重建,发现还是不行;
于是猜测是不是由于序列的原因,就把序列字段修改,如shard_id改为shard_id1,重建表后删除,再次以shard_id作为序列重建表,神奇的发现又可以插入数据,及获取序列值了。so why?
查找之前用命令导出的mpp数据库脚本,发现创建表语句:
CREATE TABLE tablename(
col1 bigint NOT NULL,
col2 character varying(100) NOT NULL,
col3 integer,
col4 timstamp(6) without time zone,
col5 text...)DISTRIBUTED BY (col1);
COMMENT ON TABLE schemaname.tablename is 'haha';
COMMENT ON COLUMN schemaname.col1 is 'col1';
...
后有单独的创建序列语句:
CREATE SEQUENCE sequencename
increment by 1
no maxvalue
no minvalue
cache 1;
alter sequence sequencename OWNED BY tablename.col1;
原来序列是单独创建的,而之前的gp创建表语句:
CREATE TABLE tablename(
col1 serial8 NOT NULL,
col2 VARCHAR(100) NOT NULL,
col3 int4,
col4 timstamp(6) ,
col5 text...)
WITH (OIDS=FALSE);
COMMENT ON TABLE schemaname.tablename is 'haha';
COMMENT ON COLUMN schemaname.col1 is 'col1';
序列是在创建表时自动创建的,而且貌似hw库的varchar类型字段长度要设置的比gp库的varchar长度大3倍,否则插入数据时可能会出现value too lang的报错。。。
---------------------------1029----------------------------
3. 在使用嵌套查询时,可能会陷入长时间等待:
在内层循环中同时使用聚合函数和limit关键字时,查询会卡住:
select * from(select a,b count(c),sum(d) from tb group by a,b desc limit 10 offset 0)tp
规避方法:1.把limit关键字放到外层查询;2.去除外层查询,不使用嵌套;
至于为什么会陷入等待,尚不清楚。
4. 判断字段空值时,空字串不可用:
如果要判断某个字段值为null或空值,原来在pg库可以这样查询:
select * from tb where a is null or a='';
但是在迁移到hw库后这种判空方式不再生效,当a=''或a!=''时查询的数据量都为0,最后只能改为coalesce(a,null) is null 的方式来判空,coalesce函数是判断字段为空时将字段值视为设定的值,这里我设定为null;