1. 认识了Hadoop，了解分布式的思想：

(1) 大数据的存储

(2) 分布式的计算

2. 大致的日志处理流程

3. HDFS的分布式文件系统

(1) NameNode

① 保存元数据信息

1) dfs.namenode.name.dir

(2) DataNode

① 具体存放数据的机器

1) Dfs.datanode.data.dir

(3) 公开的访问地址：dfs.

(4) Secondarynamenode进程

① 辅助namenode对元数据的管理

4. 集群搭建

(1) 规划

映射	角色	备注

(2) 正式搭建

5. 上传和下载的数据流程

6. 排错的方式：查看log日志

(1) Tail -f **.log

(2) 手动启动

(3) 找见错误：

7. 演示客户端的操作

(1) Hdfs的URI：hdfs：// hdp01:9000/

(2) Blocksize:128m

(3) Replication :3

8. Hdfs的客户端命令操作

9. 补充：

(1) 集群搭建时需要注意，时间同步：

① date -s '2018-05-27 09:15:44'

HDFS的客户端的常用API操作

1. 运行客户端API

(1) 创建maven的方式

①

②

③

④ 仓库地址

1) https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client/2.8.3

(2) 搭建maven

2. 在本地构建jar包，然后运行hadoop程序

(1)

(2)

(3) 关联源码

①

②

3. API操作

(1) 在下载时

① 运出这种错误

①　配置hadoop的环境变量在win系统

1) 解压

2) 环境变量的配置

3) 重新启动intellij ，加载变量

4. Safemode的问题

(1) 如果出现safemode的情况

① 是namenode在对自身集群的检查

② 如果块丢失在datanodes blocks / total blocks >= 99.9% 这个阀值

③ Hdfs就进入safemode模式

④ 查看hdfs的safemode模式

1) hdfs dfsadmin -safemode get

2) 进入： hdfs dfsadmin -safemode enter

3) 查看：

4) 离开safemode模式

a. hdfs dfsadmin -safemode leave

5. 自定义迭代器

(1)

hadoop（2）

HDFS的客户端的常用API操作

猜你喜欢