大数据核心——Hadoop生态圈

大家好，我是Jackson，是一名计算机学院大数据专业大二的学生。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！个人VX：LQ1518123002，欢迎与大家交流。

前⾔

过去20年，数据规模经历了指数级的爆发式增⻓，随之⽽来的是数据存储和数据计算的⼀系列挑战。
bit B KB MB GB TB PB EB ZB YB BB NB DB

1PB = 1024 TB

1EB = 1024PB

1ZB = 1024EB1

⼤数据技术解决的核⼼问题：海量数据的存储+海量数据的计算

主要内容

1）⼤数据时代的挑战

大数据7V

容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息；
种类（Variety）：数据类型的多样性；
速度（Velocity）：指获得数据的速度；
可变性（Variability）：妨碍了处理和有效地管理数据的过程。
真实性（Veracity）：数据的质量
复杂性（Complexity）：数据量巨大，来源多渠道
价值（value）：合理运用大数据，以低成本创造高价值

存储⾯临的瓶颈与挑战

网络带宽
磁盘读写性能瓶颈
成本较高

数据计算⾯临的严酷挑战

2）为什么说 Hadoop 处于⼤数据领域的”王者“地位？

Hadoop 有狭义和⼴义之说

(1）狭义的Hadoop就是指Hadoop框架本身⽽已，有三个重要的组成部分
HDFS（Hadoop分布式⽂件系统，存储）
MapReduce（分布式离线计算框架，计算）
Yarn（资源调度框架，资源协调）

2）⼴义的Hadoop指的是⼀个⽣态系统/⽣态圈，包含Hadoop框架之后的很多⼤数据技术栈

3） Hadoop ⽣态圈技术体系是怎样的？如何协同作业？

四）互联⽹公司⼤数据平台Hadoop⽣态圈实际应⽤

ByteDance字节跳动
HDFS总存储容量： 2EB
每天⽇增量： 5PB/天
HDFS DataNode 3w+ ⽂件数， 3Bilion Blocks： 4.4Bilion 块⼤⼩： 512M Hadoop 2.x
1T 650G内存给NameNode / G1

互联⽹公司⼤数据平台 Hadoop ⽣态圈实际应⽤示例

知乎公司

58同城

拉勾应⽤示例

思考

在此给大家留下一个思考题

1.这个技术出现的背景、初衷和要达到什么样的目标或是要解决什么样的问题。
2. 这个技术的优势和劣势分别是什么，或者说，这个技术的 trade-off 是什么
3. 这个技术适用的场景。
4. 技术的组成部分和关键点。
5. 技术的底层原理和关键实现。
6. 已有的实现和它之间的对比。

如果你现在感觉很艰难，那你一定在走上坡路。

主动学习，仔细思考，分享他人，共同进步。

同时也欢迎大家，与我一同交流。