Hadoop集群中遇到了文件个数超出限制的错误解决办法 - 代码天地

Hadoop集群中遇到了文件个数超出限制的错误解决办法

其他 2019-01-31 00:01:34 阅读次数: 0

昨天晚上spark 任务突然抛出了异常：org.apache.hadoop.hdfs.protocol.NSQuotaExceededException: The NameSpace quota (directories and files) of directory /mydir is exceeded: quota=100000 file count=100001

1）错误提示内容信息：集群中遇到了文件个数超出限制的错误。

2）问题错误来自于hadoop quota设置了限制，但是设置限制的目的是避免集群中有过多的小文件，导致集群利用率不高的情况出现。

关于hadoop quota的信息:
hadoop HDFS有以下两种Quota

Name Quotas : 限制某个目录下的文件数量
Space Quotas : 设置某个目录的空间大小

查看HDFS目录的Quota信息
$hadoop fs -count -q /user/hadoop

设置Name Quota
$hadoop dfsadmin -clrQuato /user/hadoop（这个需要超级用户的权限）

$hadoop fs -count -q /user/hadoop 
QUOTA       REMAINING_QUOTA  SPACE_QUOTA  REMAINING_SPACE_QUOTA  DIR_COUNT   FILE_COUNT CONTENT_SIZE FILE_NAME         
1000             997         1073741824      1073741284            2            1            180     /user/hadoop

如何避免集群中过多小文件出现的方法：

文件合并
Map输入合并小文件
输出合并
spark job下可以这么设置: 重分区，减少文件数（例如data_rdd.coalesce(50).saveAsTextFile(sys.argv[2], compressionCodecClass='org.apache.hadoop.io.compress.GzipCodec')）

参考

猜你喜欢

转载自blog.csdn.net/qq_36653505/article/details/86031317

Hadoop集群中遇到了文件个数超出限制的错误解决办法

hadoop 集群常见错误解决办法

hadoop错误解决办法:-------HDFS上传文件保存错误或速度很慢

Python爬虫遇到URL错误解决办法大全

本地Java代码访问hadoop集群时错误Access denied for user ??. Superuser privilege is required错误解决办法

Python 读取文件错误解决办法

(python)tkinter中askopenfile打开文件错误解决办法

CentOS 中yum命令运行错误解决办法

JavaMail中Folder is not open及OutOfMemory 错误解决办法

JavaMail中Folder is not open及OutOfMemory 错误解决办法

MySQL：1093错误解决办法

git错误解决办法

documentum UCF 错误解决办法

安装tesserocr错误解决办法

Illegalaccesserror 错误解决办法

Nginx 499 错误解决办法

TemplateDoesNotExist 错误解决办法

goagent 403错误解决办法

ClassNotFoundException/TypeNotPresentException错误解决办法

insmod错误解决办法

KeyError: 'migrate'错误解决办法

406错误解决办法 SpringMVC

maven错误解决办法

tomcat的404错误解决办法

javamail错误解决办法：

GitLab 502错误解决办法

ajax的post提交参数长度超出限制的解决办法

python写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法

word在试图打开文件时遇到错误，解决办法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)