01.认识大数据

版权声明:原创文章,转载请声明原处 https://blog.csdn.net/qq_41723615/article/details/86238192

“大数据”指数据集的大小超过了现有典型的数据库软件和工具的处理能力。
与此同时,及时捕捉、存储、聚合、管理这些大数据以及对数据的深度
分析的新技术和新能力,正在快速增长、就像预测计算芯片增长速度的
摩尔定律一样。


关系型数据 VS Hadoop

并行关系数据库:
    1.多个独立的关系数据库服务器,访问共享的存储资源池。
    2.优势:
           (1)采用多个关系数据库服务器,多个存储,与原有的架构
                相比,扩展了存储容量和计算能力。

    3.劣势:            
           (1)计算与存储分离,数据访问存在竞争和带宽瓶颈。
           (2)支持的关系数据库服务器数量有限
           (3)只能向上扩展,不能横向扩展

    4.适合复杂的需要事务处理的应用

MMP or Hadoop:
    1.由大量独立的服务器通过网络互连形成集群,每个服务器带存储。
    2.优势:计算与存储融合,支持横向扩展,更好的扩展性。
    3.劣势:解决数据冲突时需要节点间协作
    4.适用范围:
            (1)数据仓库和离线数据分析(MMP,Hadoop/HBase)
            (2)大规模在线实时应用(单行事务处理能满足的场景)(HBase)

Hadoop的子项目:

    1.Core(必学): 一套分布式文件系统以及支持Map-Reduce的计算框架。
    2.Avro: 定义了一种用于支持大叔数据应用的数据格式,并为这种格式
            提供了不同的编程语言的支持。    
    3.HDFS(必学):Hadoop分布文件系统。
    4.Map/Reduce(必学): 是一个使用简易的软件框架,基于它写出来的应用程序能够运行
                  在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式
                  并行处理上T级别的数据集。
    5.ZooKeeper(必学):是高可用的和可靠的分布式协同系统。
    6.Pig:建立于Hadoop Core之上为并行计算环境提供了一套数据工作流语言和执行框架。    
    7.Hive(必学):是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似
            SQL的语法的HiveQL语言进行数据查询。
    8.HBase(必学):建立于Hadoop Core 之上提供一个可扩展的数据库系统。
    9.Flume:一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类
             数据发送方,用于收集数据。
    10.Mahout:是一套具有可扩充能力的机器学习类库。
    11.Sqoop:是Apache下用于RDBMS和HDFS互相导数据的工具    
    
Hadoop官网:http://hadoop.apache.org
下面会学习Hadoop 1.x和2.x版本。
rbm后缀的包,是已经编译的包。
tar后缀的包,被编译后的压缩包。
 

猜你喜欢

转载自blog.csdn.net/qq_41723615/article/details/86238192
01.