Hive中insert into和insert overwrite的区别

insert into 和 insert overwrite 都是往表中添加数据
区别
insert into:将数据追加到表的末尾
insert overwrite:覆盖之前的数据
语句:
insert into:
hive>insert into [table] student select * from stu;(将select * from stu的查询结果追加到student表的后面,这时table可以省略
insert overwrite:
hive>insert overwrite table student select * from stu;(将select * from stu的查询结果覆盖student表之前的数据,这时table不可以省略
也可以将查询到的数据写到本地文件夹下
hive>insert overwrite local directory '/opt/module/datas/overwrite’select * from stu;

企业中使用insert overwrite来保证幂等性(即多次执行效果相同)

什么是幂等性?
HTTP/1.1中对幂等性的定义是:一次和多次请求某一个资源对于资源本身应该具有同样的结果(网络超时等问题除外)。也就是说,其任意多次执行对资源本身所产生的影响均与一次执行的影响相同。

这里需要关注几个重点:

  1. 幂等不仅仅只是一次(或多次)请求对资源没有副作用(比如查询数据库操作,没有增删改,因此没有对数据库有任何影响)。
  2. 幂等还包括第一次请求的时候对资源产生了副作用,但是以后的多次请求都不会再对资源产生副作用。
  3. 幂等关注的是以后的多次请求是否对资源产生的副作用,而不关注结果。
  4. 网络超时等问题,不是幂等的讨论范围。

幂等性是系统服务对外一种承诺(而不是实现),承诺只要调用接口成功,外部多次调用对系统的影响是一致的。声明为幂等的服务会认为外部调用失败是常态,并且失败之后必然会有重试。

猜你喜欢

转载自blog.csdn.net/weixin_43190860/article/details/90764914