大数据运维

业内有这么一句话说:云计算可能改变了整个传统IT产业的基础架构,而大数据处理,尤其像Hadoop组件这样的技术出现,将是改变IT业务模式的一种技术。另外,很多小伙伴可能还搞不明白云和Hadoop有什么关系,事实上这是两种截然不同的技术。今天我们就来聊一聊大数据运维工程师。

一.Linux发展与学习线路 

 

二.大数据运维的工作职责


     
      
      
  1. 一.集群管理
  2. 大数据需要分布式系统,也就是集群:Hadoop,Hbase,Spark,Kafka,
  3. Redis等大数据生态圈组建。
  4. 二.故障处理
  5. 1>.商用硬件使用故障是常态。
  6. 2>.区分故障等级,优先处理影响实时性业务的故障。
  7. 三.变更管理
  8. 1>.以可控的方式,高效的完成变更工作;
  9. 2>.包括配置管理和发布管理;
  10. 四.容量管理
  11. 1>.存储空间,允许链接数等都是容量概念;
  12. 2>.在多租户环境下,容量管理尤其重要;
  13. 五.性能调优
  14. 1>.不同组建的性能概念不一样,如kafka注重吞吐量,Hbase注重实用性、
  15. 可用性;
  16. 2>.需要对组建有深刻的理解
  17. 六.架构优化
  18. 1>.优化大数据平台架构,支持平台能力和产品的不断迭代;
  19. 2>.类似架构师的工作;

三.大数据运维所需的能力


     
      
      
  1. 一.DevOps
  2. DevOps(英文Development和Operations的组合)是一组过程,方法和系统
  3. 的统称,用于促进开发(应用程序/软件工程),技术运营和
  4. 质量保障(QA)部门之间的沟通,写作与整合。
  5. 二.硬件,OS,网络,安全的基础知识
  6. 大数据平台和组建设计范围广,各种都需要懂一点,这些知识出问题
  7. 的时候不可能问人,因为别人也有自己的工作要做。
  8. 三.脚本语言能力
  9. Shell,SQL(DDL),Python.Java(加分)
  10. 四.大数据各个组件知识
  11. 设计思想。使用范围,底层架构,常用命令,常用配置或参数,
  12. 常见问题处理方法。
  13. 五.工具能力
  14. Zabbix,Open Falcon,Ganglia,ELK等,企业自研工具。
  15. 我推荐使用集群自带的工具。
  16. 六.Trouble shooting能力
  17. 搜索能力(搜索引擎,stackoverflow等),
  18. java能力(异常堆栈要看得懂,最好能看懂源码),英文阅读能力。
  19. 七.意识,流程
  20. 良好的意识,什么能做什么不能做。同用的流程如ITIL,
  21. 各企业也有自己的流程。

四.大数据运维的主要工作


     
      
      
  1. 一.运维三板斧
  2. 三板斧可以解决 90%以上的故障处理工作。
  3. 1>.重启
  4. 重启有问题的机器或经常,使其正常工作。
  5. 2>.切换
  6. 主备切换或主主切换,链接正常工作的节点。
  7. 3>.查杀
  8. 查杀有问题的进程,链接等。
  9. 4>.三板斧的问题
  10. 第一:只能处理故障处理问题,不能解决性能调优,架构优化等问题;
  11. 第二:只能治标,不能治本;
  12. 5>..大数据运维和传统运维的不同
  13. 第一:传统运维面对的底层软硬件基本稳固,大数据运维面对的是商用硬件和复杂linux版本;
  14. 第二:传统运维面对的是单机架构为主,大数据运维面对复杂的分布式架构;
  15. 第三:传统运维大多维护闭源商业版系统,大数据运维通常面对开源系统,文档手册匮乏,对阅读源码要求高。
  16. 第四:大数据运维对自动化工具的依赖大大增加;
  17. 二.Iaas层(基础设置及服务)运维工作
  18. 一般中大型企业有自己的基础设施维护团队,这部分工作不会交给大数据运维来做。小公司可能需要大数据运维键值这部分工作,主要关注三个方面:
  19. 1>.硬件
  20. 大数据系统大多使用廉价PC Server或虚拟机,硬件故障是常态,通过告警,日志,维护命令等识别故障,并支持硬件更换。
  21. 2>.存储
  22. 大多使用PC Server挂本磁盘的存储方式,极少情况会使用SAN(存储区域网络)或NAS(网络附属存储),熟悉分区,格式化,巡检等基本操作。
  23. 3>.网络
  24. 网络的配置变更更需要比较专业的知识,如有需要可学习CCNA,CCNP等认证课程,但网络硬件和配置出问题概率很低,主要关注丢包,延时。
  25. 三.HDFS运维工作
  26. 1>.容量管理
  27. 第一:HDFS空间我使用超过 80%要警惕,如果是多租户环境,租户的配额空间也能用完;
  28. 第二:熟悉hdfs,fsck,distcp等常用命令,会使用DataNode均衡器;
  29. 2>.进程管理
  30. 第一:NameNode的进程是重点
  31. 第二:熟悉dfsadmin等Ingles。怎么做NameNode高可用。
  32. 3>.故障管理
  33. Hadoop最常见的故障就是硬盘损坏。
  34. 4>.配置管理
  35. hdfs-site.xml中的参数设置。
  36. 四.MapReduce运维工作
  37. 1>.进程管理
  38. 第一:jobtracker进程故障概率比较低,有问题可以通过重启解决;
  39. 第二:了解一下HA的做法;
  40. 2>.配置管理
  41. mapred-site.xml中的参数设置。
  42. 五.Yarn运维工作
  43. 1>.故障管理
  44. 主要是当任务异常这中止时看日志排查,通茶故障原因会集中在资源问题,权限问题中的一种。
  45. 2>.进程管理
  46. ResourceManager主要是学会配置HA
  47. NodeManager进程挂掉不重要,重启即可。
  48. 3>.配置管理
  49. yarn-site.xml中的参数设置,主要分三块配置,scheduler的,ResourceManager的,NodeManager的。
  50. 六.Hive/Impala运维工作
  51. 1>.SQL问题排查
  52. 第一:结果不对,主要原因可能是SQL错误,数据不存在,UDF错误等,需要靠经验排查
  53. 第二:慢SQL,这类问题开发经常会找运维排查,有可能是劣势SQL,数据量大,也有可能是集群资源紧张;
  54. 2>.元数据管理
  55. Hive和Impala公用的元数据,存在关系型数据库中。
  56. 七.其它组件
  57. 根据组件用途,特性,关注点的不用,运维工作也各不相同,如:
  58. 1>.HBase关注读写性能,服务的可用性
  59. 2>.Kafka关注吞吐量,负载均衡,消息不丢机制
  60. 3>.Flume关注屯度量,故障后的快速恢复

五.大数据运维技能概览

 

六.大数据运维职业素养


     
      
      
  1. 1>.人品
  2. 2>.严谨
  3. 3>.细心
  4. 4>.心态
  5. 5>.熟悉操作系统
  6. 6>.熟悉业务(开发)
  7. 7>.熟悉行业

业内有这么一句话说:云计算可能改变了整个传统IT产业的基础架构,而大数据处理,尤其像Hadoop组件这样的技术出现,将是改变IT业务模式的一种技术。另外,很多小伙伴可能还搞不明白云和Hadoop有什么关系,事实上这是两种截然不同的技术。今天我们就来聊一聊大数据运维工程师。

一.Linux发展与学习线路 

 

二.大数据运维的工作职责


     
   
   
  1. 一.集群管理
  2. 大数据需要分布式系统,也就是集群:Hadoop,Hbase,Spark,Kafka,
  3. Redis等大数据生态圈组建。
  4. 二.故障处理
  5. 1>.商用硬件使用故障是常态。
  6. 2>.区分故障等级,优先处理影响实时性业务的故障。
  7. 三.变更管理
  8. 1>.以可控的方式,高效的完成变更工作;
  9. 2>.包括配置管理和发布管理;
  10. 四.容量管理
  11. 1>.存储空间,允许链接数等都是容量概念;
  12. 2>.在多租户环境下,容量管理尤其重要;
  13. 五.性能调优
  14. 1>.不同组建的性能概念不一样,如kafka注重吞吐量,Hbase注重实用性、
  15. 可用性;
  16. 2>.需要对组建有深刻的理解
  17. 六.架构优化
  18. 1>.优化大数据平台架构,支持平台能力和产品的不断迭代;
  19. 2>.类似架构师的工作;

三.大数据运维所需的能力


     
   
   
  1. 一.DevOps
  2. DevOps(英文Development和Operations的组合)是一组过程,方法和系统
  3. 的统称,用于促进开发(应用程序/软件工程),技术运营和
  4. 质量保障(QA)部门之间的沟通,写作与整合。
  5. 二.硬件,OS,网络,安全的基础知识
  6. 大数据平台和组建设计范围广,各种都需要懂一点,这些知识出问题
  7. 的时候不可能问人,因为别人也有自己的工作要做。
  8. 三.脚本语言能力
  9. Shell,SQL(DDL),Python.Java(加分)
  10. 四.大数据各个组件知识
  11. 设计思想。使用范围,底层架构,常用命令,常用配置或参数,
  12. 常见问题处理方法。
  13. 五.工具能力
  14. Zabbix,Open Falcon,Ganglia,ELK等,企业自研工具。
  15. 我推荐使用集群自带的工具。
  16. 六.Trouble shooting能力
  17. 搜索能力(搜索引擎,stackoverflow等),
  18. java能力(异常堆栈要看得懂,最好能看懂源码),英文阅读能力。
  19. 七.意识,流程
  20. 良好的意识,什么能做什么不能做。同用的流程如ITIL,
  21. 各企业也有自己的流程。

四.大数据运维的主要工作


     
   
   
  1. 一.运维三板斧
  2. 三板斧可以解决 90%以上的故障处理工作。
  3. 1>.重启
  4. 重启有问题的机器或经常,使其正常工作。
  5. 2>.切换
  6. 主备切换或主主切换,链接正常工作的节点。
  7. 3>.查杀
  8. 查杀有问题的进程,链接等。
  9. 4>.三板斧的问题
  10. 第一:只能处理故障处理问题,不能解决性能调优,架构优化等问题;
  11. 第二:只能治标,不能治本;
  12. 5>..大数据运维和传统运维的不同
  13. 第一:传统运维面对的底层软硬件基本稳固,大数据运维面对的是商用硬件和复杂linux版本;
  14. 第二:传统运维面对的是单机架构为主,大数据运维面对复杂的分布式架构;
  15. 第三:传统运维大多维护闭源商业版系统,大数据运维通常面对开源系统,文档手册匮乏,对阅读源码要求高。
  16. 第四:大数据运维对自动化工具的依赖大大增加;
  17. 二.Iaas层(基础设置及服务)运维工作
  18. 一般中大型企业有自己的基础设施维护团队,这部分工作不会交给大数据运维来做。小公司可能需要大数据运维键值这部分工作,主要关注三个方面:
  19. 1>.硬件
  20. 大数据系统大多使用廉价PC Server或虚拟机,硬件故障是常态,通过告警,日志,维护命令等识别故障,并支持硬件更换。
  21. 2>.存储
  22. 大多使用PC Server挂本磁盘的存储方式,极少情况会使用SAN(存储区域网络)或NAS(网络附属存储),熟悉分区,格式化,巡检等基本操作。
  23. 3>.网络
  24. 网络的配置变更更需要比较专业的知识,如有需要可学习CCNA,CCNP等认证课程,但网络硬件和配置出问题概率很低,主要关注丢包,延时。
  25. 三.HDFS运维工作
  26. 1>.容量管理
  27. 第一:HDFS空间我使用超过 80%要警惕,如果是多租户环境,租户的配额空间也能用完;
  28. 第二:熟悉hdfs,fsck,distcp等常用命令,会使用DataNode均衡器;
  29. 2>.进程管理
  30. 第一:NameNode的进程是重点
  31. 第二:熟悉dfsadmin等Ingles。怎么做NameNode高可用。
  32. 3>.故障管理
  33. Hadoop最常见的故障就是硬盘损坏。
  34. 4>.配置管理
  35. hdfs-site.xml中的参数设置。
  36. 四.MapReduce运维工作
  37. 1>.进程管理
  38. 第一:jobtracker进程故障概率比较低,有问题可以通过重启解决;
  39. 第二:了解一下HA的做法;
  40. 2>.配置管理
  41. mapred-site.xml中的参数设置。
  42. 五.Yarn运维工作
  43. 1>.故障管理
  44. 主要是当任务异常这中止时看日志排查,通茶故障原因会集中在资源问题,权限问题中的一种。
  45. 2>.进程管理
  46. ResourceManager主要是学会配置HA
  47. NodeManager进程挂掉不重要,重启即可。
  48. 3>.配置管理
  49. yarn-site.xml中的参数设置,主要分三块配置,scheduler的,ResourceManager的,NodeManager的。
  50. 六.Hive/Impala运维工作
  51. 1>.SQL问题排查
  52. 第一:结果不对,主要原因可能是SQL错误,数据不存在,UDF错误等,需要靠经验排查
  53. 第二:慢SQL,这类问题开发经常会找运维排查,有可能是劣势SQL,数据量大,也有可能是集群资源紧张;
  54. 2>.元数据管理
  55. Hive和Impala公用的元数据,存在关系型数据库中。
  56. 七.其它组件
  57. 根据组件用途,特性,关注点的不用,运维工作也各不相同,如:
  58. 1>.HBase关注读写性能,服务的可用性
  59. 2>.Kafka关注吞吐量,负载均衡,消息不丢机制
  60. 3>.Flume关注屯度量,故障后的快速恢复

五.大数据运维技能概览

 

六.大数据运维职业素养


     
   
   
  1. 1>.人品
  2. 2>.严谨
  3. 3>.细心
  4. 4>.心态
  5. 5>.熟悉操作系统
  6. 6>.熟悉业务(开发)
  7. 7>.熟悉行业

猜你喜欢

转载自blog.csdn.net/qq_40207692/article/details/112566790