一、某日SAAS环境磁盘水位过高,一共500G,已经被占用了450G以上,故查看hdfs各目录分别占用多少空间,
1、hadoop fs -help (若熟悉命令,可忽略)
2、hadoop fs -du -h /
发现是/hive下数据量突出
3、hadoop fs -du -h /hive
继续找到是哪个schema和table的数据量最大,一般是hive/user/warehouse下
二、hive不区分大小写,schema和table统一使用小写,mysql是可以配置的,pg中也建议小写,若有大写字母,必须用双引号
三、线程池队列的使用
分为三种,直接提交的SynchronousQueue、无界队列LinkedBlockingQueue,有界队列ArrayBlockingQueue,使用SynchronousQueue会直接提交,等于没有队列缓冲,使用LinkedBlockingQueue超过corePoolSize会往队列里面一直插入,不会使用到MaximunPoolSize,但是队列无限增加可能会导致内存溢出,使用ArrayBlockingQueue会较有效控制线程数量与缓冲队列的容量,但是执行任务的最大数量等于max+队列,故应该明确所需的线程数
可参考:https://blog.csdn.net/a837199685/article/details/50619311