hadoop学习顺序【转】

hadoop学习顺序
第一 先会配置安装一个HD 10分钟
第二 会用HDFS的API
第三 会用已有MR 写一个Job 一个Job除了有提交方法外 其他都是Configuration决定的
第四 会重写多数的类达到你的功能 RecordWriter/Reader FileInput/OutPutFormat MapReduce 搞懂他们的启动顺序 以及实现抽象类和接口的必要方法 和它们的作用
第五 重新配置安装HD 这次你需要做HA 多集群一大堆的东西
第六 搞懂Configuration XML里至少80%条目的意义
第七 学基本的Pig Hive并且查看他们的源码怎么调用MR的
第八 看Mahout源码 看他们每个算法利用了MR的什么天然特性
第九 根据你所知的东西 看HD源码 搞懂至少 .conf .hdfs .fs .io .mapred .mapreduce .jobcontrol .compress .util 里面的各个class 其实一个包里的东西不多 平均10个左右的class 每个class基本不超过500行 代码风格非常号
第十 照着HD 包装自己公司的 至少以上 分布式系统(小弟能力有限 做不不了)
我认为 如果做开发 不做运维的话 当他是个文件系统 做运维 就搞懂第六条

猜你喜欢

转载自zhang69011486.iteye.com/blog/1873183