个人工作杂记

一、某日SAAS环境磁盘水位过高,一共500G,已经被占用了450G以上,故查看hdfs各目录分别占用多少空间,

1、hadoop fs -help (若熟悉命令,可忽略)

2、hadoop fs -du -h /

发现是/hive下数据量突出

3、hadoop fs -du -h /hive

继续找到是哪个schema和table的数据量最大,一般是hive/user/warehouse下

二、hive不区分大小写,schema和table统一使用小写,mysql是可以配置的,pg中也建议小写,若有大写字母,必须用双引号

三、线程池队列的使用

分为三种,直接提交的SynchronousQueue、无界队列LinkedBlockingQueue,有界队列ArrayBlockingQueue,使用SynchronousQueue会直接提交,等于没有队列缓冲,使用LinkedBlockingQueue超过corePoolSize会往队列里面一直插入,不会使用到MaximunPoolSize,但是队列无限增加可能会导致内存溢出,使用ArrayBlockingQueue会较有效控制线程数量与缓冲队列的容量,但是执行任务的最大数量等于max+队列,故应该明确所需的线程数

可参考:https://blog.csdn.net/a837199685/article/details/50619311

猜你喜欢

转载自www.cnblogs.com/1023linlin/p/10718368.html