HBase从删库到跑路系列:误删数据如何抢救?

版权声明:有喜欢的欢迎转载,有不理解的,我们共同讨论。 https://blog.csdn.net/qq_39736482/article/details/80845624

HBase删库到跑路系列:误删数据如何抢救?

话痨解释一番:删库是一个搞笑的说话,在我们的行业间还是要遵循道德的,做一个文明健康的IT人。遵循行业的规则。
进入正题:有时候我们操作数据库的时候总会有犯迷糊的时候,一不小心误删数据,这时候应该如何找回?我们知道mysql数据库里有binlog可以帮助我们吧删除的数据恢复,但是如果没有开binlog也没有去备份的话那就尴尬了。如果是大数据的插件HBase数据库,你没有做备份误删了又如何恢复呢?

数据保护

当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:

alter 't',{NAME => 'f',KEEP_DELETED_CELLS => TRUE}

如果误删一张alter 't',{NAME => 'f',KEEP_DELETED_CELLS => TRUE}表的有多个family里的数据,需要都执行一下:

alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }

设置 KEEP_DELETED_CELLS True 的目的在于防止数据被物理删除。这里有必要解释一下HBase清理数据的原理:

1首先HBase是一个LSM架构,不断发生着数据文件的写入和合并

2当删除操作发生时,不会去清理数据文件中的数据,而是写入一个删除标记到新文件中。

3当某一刻major compaction发生时,在合并文件的同时会根据删除标记清理数据,新合并出来的数据文件不会再有旧数据。

4KEEP_DELETED_CELLS 的作用就是在major compaction发生的时候,决定要不要清理旧数据。这里需要注意一点,即便 KEEP_DELETED_CELLS 设置为True,数据仍然会因为过期而被清理(HBsae表中的TTL属性)。这个设定无可厚非,既然过期了,误删不误删也无所谓了。

数据恢复

数据恢复的前提数据没有被物理删除,也就是上文提及的。你只需要在查询(Scan)的时候,指定raw模式来搜索数据,就能看到被删除的数据,之后你要做就是把数据再写入一次。我们来看一个简单的例子,还是以hbase shell为例子:

1.首先我们准备几行数据

 ROW COLUMN+CELL
 x.row1 column=f:c1,timestamp=1528449361490,value=value1
 x.row2 column=f:c2,timestamp=1528449372090,value=value2
 x.row3 column=f:c3,timestamp=1528449378971,value=value3
 y.row1 column=f:c1,timestamp=1528449387923,value=value1
 y.row2 column=f:c2,timestamp=1528449394742,value=value2

2.然后我们删掉y开头掉数据

 hbase(main):024:0> delete 't' ,' y.row1','f:c1'
hbase(main):024:0> delete 't' ,' y.row2','f:c2'

3.查一下,现在只有3行了

 hbase(main):026:0> scan 't'
ROW COLUMN+CELL
 x.row1 column=f:c1,timestamp=1528449361490,value=value1
 x.row2 column=f:c2,timestamp=1528449372090,value=value2
 x.row3 column=f:c3,timestamp=1528449378971,value=value3

4.现在我们带上raw再次查找数据,不仅能看到被删除数据,还能看到删除标记。

 hbase(main):047:0> scan 't',{TIMERANGE =>[0,1528450107075],RAW => TRUE}
ROW COLUMN+CELL
 x.row1 column=f:c1,timestamp=1528449361490,value=value1
 x.row2 column=f:c2,timestamp=1528449372090,value=value2
 x.row3 column=f:c3,timestamp=1528449378971,value=value3
 y.row1 column=f:c1,timestamp=1528449387923,type=Delete
 y.row1 column=f:c1,timestamp=1528449387923,value=value1
 y.row2 column=f:c2,timestamp=1528449394742,type=Delete
 y.row2 column=f:c2,timestamp=1528449394742,value=value2

这里我设置了TIMERANGE, 指定的是数据写入的时间。对于我这个case其实并没有什么用,我只是想说明几点:

1、即便不设置RAW,也可以通过时间搜索到被删数据。比如数据写入时间是T,delete时间是T+2,那么查找[0, T+1]的话就能看见数据。前提是设置了 KEEP_DELETED_CELLS=TRUE

2、如果你后续写入重复的Key,那你必须指定好TIMERANGE,不然你可能看到的不是原先删除的keyVlaue。

3、delete操作默认的时间不是当前server的时间,也不是构造Delete对象的时间,而是被删除的这个keyValue的写入时间。当然这个得看版本,测试时候发现1.x和2.x还是不一样的,有点坑,还以为高版本不能仅通过TIMERAGE搜素被删数据了。

4、如果你的Delete mark的时间和数据的时间一样,那只能通过RAW看到。

5、数据恢复完,建议关闭KEEP_DELETED_CELLS,节省空间,提高查询效率。

其他

上面使用的是hbase shell演示,你可以使用任何语言的API完成上面的操作。

如果你使用的是云HBase,即便因为major compaction物理删除了数据,只要你开启了备份功能,依然可以恢复。

 

猜你喜欢

转载自blog.csdn.net/qq_39736482/article/details/80845624