寒假之大数据学习笔记(0)

本人现大二计算机学生,想将自己学的东西,写成博客,供大家分享,日后也将持续更新。

寒假里主要整理大数据和java方面的知识。

(大数据开发技术)学习路线如下:

环境:Linux操作系统(CentOS)
(1)Hadoop:解决海量数据的分布式存储, 分布式计算
(2)Hbase:大数据的数据库 列式存储的数据
(3)Hive:数据仓库( 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。)
(4)scala:函数式编程
(5)Spark:准时时计算的一 个框架
(6)SparkSQL:为Spark提供结构化数据处理
(7)SparkStreaming:流式计算
(8)Flume:数据采集
(9)Kafka:消息队列
(10)Python:面向对象 爬虫

storm:是一个免费并开源的分布式实时计算系统(过时)
flink:以数据并行和流水线方式执行任意流数据程序

其中

(1)、(2)、(3)属于离线计算,主要用在处理数据量大,但不急于计算的情况

(5)、(6)、(7)、(8)、(8)属于实时计算,主要用在边存入边处理的数据

(4)、(10)是两种独立的语言

基于hadoop,以上各个技术组成hadoop生态圈

hadoop生态圈

由zookeeper这个技术来管理这个生态圈

zookeeper:管理 协调

(每学习一个新的技术就放入zookeeper里面)

发布了7 篇原创文章 · 获赞 2 · 访问量 363

猜你喜欢

转载自blog.csdn.net/qq_43935969/article/details/104054329