hadoop(2)

1. 认识了Hadoop,了解分布式的思想:

(1) 大数据的存储

(2) 分布式的计算

2. 大致的日志处理流程

3. HDFS的分布式文件系统

(1) NameNode

① 保存元数据信息

1) dfs.namenode.name.dir

(2) DataNode

① 具体存放数据的机器

1) Dfs.datanode.data.dir

(3) 公开的访问地址:dfs.

(4) Secondarynamenode进程

① 辅助namenode对元数据的管理

4. 集群搭建

(1) 规划

映射

角色

备注

(2) 正式搭建

5. 上传和下载的数据流程

6. 排错的方式:查看log日志

(1) Tail -f   **.log

(2) 手动启动

(3) 找见错误:

7. 演示客户端的操作

(1) HdfsURIhdfs// hdp01:9000/

(2) Blocksize:128m

(3) Replication :3

8. Hdfs的客户端命令操作

9. 补充:

(1) 集群搭建时需要注意,时间同步:

① date   -s    '2018-05-27 09:15:44'

 

 

HDFS的客户端的常用API操作

1. 运行客户端API

(1) 创建maven的方式

① 

② 

③ 

④ 仓库地址

1) https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client/2.8.3

(2) 搭建maven

2. 在本地构建jar包,然后运行hadoop程序

(1) 

(2) 

(3) 关联源码

① 

② 

3. API操作

(1) 在下载时

① 运出这种错误

 

 

 

 

① 配置hadoop的环境变量在win系统

1) 解压

2) 环境变量的配置

a. 

3) 重新启动intellij ,加载变量

 

4. Safemode的问题

(1) 如果出现safemode的情况

① namenode在对自身集群的检查

② 如果块丢失在datanodes blocks /  total blocks >= 99.9%  这个阀值

③ Hdfs就进入safemode模式

④ 查看hdfssafemode模式

1)  hdfs dfsadmin -safemode get

2) 进入:  hdfs dfsadmin -safemode enter

3) 查看:

a. 

4) 离开safemode模式

a. hdfs dfsadmin -safemode  leave

5. 自定义迭代器

(1) 

 

猜你喜欢

转载自blog.csdn.net/a331685690/article/details/80552759