Hadoop Archives *.har文件解析备忘 - 代码天地

Hadoop Archives *.har文件解析备忘

企业开发 2018-05-13 10:02:43 阅读次数: 2

mark:HarFileSystem
source:hadoop-common-2.0.0-cdh4.3.0.jar

为了节省NN的元数据，可以将HDFS上的不再变化的小文件归档。Hadoop archives是Hadoop自带的特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive目录结构如下：

Name	Type	Size
_SUCCESS	file	0 B
_index	file	599 B
_masterindex	file	23 B
part-0	file	48 B

        【说明：】
        1. *.har在HDFS上是一个目录，不是一个文件。
        2. _index和_masterindx为元数据信息。
        3. part-*为真实数据集。

        看下_index文件及part-0中都存了些什么：
        _index:

%2F dir 1378884867194+493+cdh4+supergroup 0 0 123.txt 2013 3.txt 
%2F2013 dir 1378884762156+493+cdh4+supergroup 0 0 09 
%2F2013%2F09%2F10%2F1.txt file part-0 12 12 1378883181096+420+cdh4+supergroup 
%2F123.txt file part-0 0 12 1378866591533+420+cdh4+supergroup 
%2F2013%2F09%2F10 dir 1378884856608+493+cdh4+supergroup 0 0 1.txt 
%2F2013%2F09%2F11 dir 1378884867194+493+cdh4+supergroup 0 0 2.txt 
%2F2013%2F09 dir 1378884821792+493+cdh4+supergroup 0 0 10 11 
%2F2013%2F09%2F11%2F2.txt file part-0 24 12 1378883185898+420+cdh4+supergroup 
%2F3.txt file part-0 36 12 1378883191541+420+cdh4+supergroup

        可以看到里面存储了所有打包目录及文件的层次结构，数据文件信息及内容偏移等:
        /123.txt
        /2013/1.txt
        /2013/2.txt
        /3.txt

        part-0:

hdfs://aaaa
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa

数据文件中记录了打包目录下所有4个文件的内容。

【*】根据元数据文件及数据文件应该可以恢复出原目录结构。

猜你喜欢

转载自xmaster.iteye.com/blog/1940230

Hadoop Archives *.har文件解析备忘

Hadoop Archives对小文件的处理

Hadoop Archives

hadoop文件系统上的小文件合并-Hadoop Archives

大数据-----Hadoop Archives

Hadoop Archives的集群搭建

Hadoop Archives Guide(hdfs文件归档介绍和例子)

Hadoop HDFS Hadoop Archives工具的使用

Archives

使用Hadoop har归档历史文件（小文件）

Archives: 2017

Hadoop 归档和HIVE 如何使用har 归档文件

【HADOOP】【备忘】hadoop安装

解压缩模块zipfile — Work with ZIP archives（档案文件）

Archives: 2013/6

Archives: 2018/12

DedeCMS v5.7 注册用户任意文件删除漏洞 /member/inc/archives_check_edit.php

arc.archives.class.php

【转】Hadoop 操作备忘

Hadoop安装备忘

Hadoop 配置文件解析

Ubuntu16.04下E: Unable to fetch some archives, maybe run apt-get update or try with --fix-missing?备忘录

【备忘】Hadoop,Hbase,Hive源码解析与开发实战

通过apt-get命令下载的软件包，放在 /var/cache/apt/archives 目录下下载文件位置可以在 /etc/apt/source.list文

阿里云服务器 ECS Linux 主机删除文件后磁盘空间显示不变（转载https://www.zhanqunfuwuqi.com/archives/5293）

http://www.hollischuang.com/archives/1072

How to use wget to download mail archives?

SpringBoot 通过 Exploded Archives 的方式部署

Xcode如何打开Archives打包界面？

Caused by: Zip64 archives are not supported

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)