大数据生态圈和机器学习,一份完整的大纲

一、大数据生态圈


1. 大数据技术组件

  • 数据采集组件:DataX,sqoop,logstash,flume等
  • 数据计算组件:Spark Core,Spark Sql,Spark Streaming,Mapreduce,Hive Sql,Phoenix Sql,Storm
  • 数据调度组件:Azkaban,oozie等
  • 数据存储及中间件组件:Hbase,Hive,Redis,kafka等
  • 集群搭建组件:CDH,Ambari等
  • 数据挖掘相关组件:Spark Mlib,Spark Ml,Mahout等
  • 集群相关日志及任务监控:Elastic Search,logstash,kabana,也就是ELK监控等

2. 大数据常用架构

  • 日志埋点采集架构
  • 数据实时计算架构
  • 离线数据同步及离线计算任务的架构及调度

二、机器学习相关


大数据学习加QQ群:716581014  

猜你喜欢

转载自blog.csdn.net/qq_41842569/article/details/80873896
今日推荐