1. 认识了Hadoop,了解分布式的思想:
(1) 大数据的存储
(2) 分布式的计算
2. 大致的日志处理流程
3. HDFS的分布式文件系统
(1) NameNode
① 保存元数据信息
1) dfs.namenode.name.dir
(2) DataNode
① 具体存放数据的机器
1) Dfs.datanode.data.dir
(3) 公开的访问地址:dfs.
(4) Secondarynamenode进程
① 辅助namenode对元数据的管理
4. 集群搭建
(1) 规划
映射 |
角色 |
备注 |
(2) 正式搭建
5. 上传和下载的数据流程
6. 排错的方式:查看log日志
(1) Tail -f **.log
(2) 手动启动
(3) 找见错误:
7. 演示客户端的操作
(1) Hdfs的URI:hdfs:// hdp01:9000/
(2) Blocksize:128m
(3) Replication :3
8. Hdfs的客户端命令操作
9. 补充:
(1) 集群搭建时需要注意,时间同步:
① date -s '2018-05-27 09:15:44'
HDFS的客户端的常用API操作
1. 运行客户端API
(1) 创建maven的方式
①
②
③
④ 仓库地址
1) https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client/2.8.3
(2) 搭建maven
2. 在本地构建jar包,然后运行hadoop程序
(1)
(2)
(3) 关联源码
①
②
3. API操作
(1) 在下载时
① 运出这种错误
① 配置hadoop的环境变量在win系统
1) 解压
2) 环境变量的配置
a.
3) 重新启动intellij ,加载变量
4. Safemode的问题
(1) 如果出现safemode的情况
① 是namenode在对自身集群的检查
② 如果块丢失在datanodes blocks / total blocks >= 99.9% 这个阀值
③ Hdfs就进入safemode模式
④ 查看hdfs的safemode模式
1) hdfs dfsadmin -safemode get
2) 进入: hdfs dfsadmin -safemode enter
3) 查看:
a.
4) 离开safemode模式
a. hdfs dfsadmin -safemode leave
5. 自定义迭代器
(1)