Hadoop study concluded (1) - Big Data and Hadoop related concepts introduced

First, the basic concept of big data

1.1 What is Big Data

  Big data refers to data to be processed is more than the TB level data . Big Data is the level of TB started. Among the computer hard disk to store the above files will take up some storage space, for example:

  

  File storage space is represented by the size of the file, in which the computer, the file size can be represented by the following units, the conversion between the various units are as follows:

  

  Usually we in our own computer above common is Byte, KB, MB, GB these types, then what is it Big Data, Big Data is based on the initial level of TB began, 1TB = 1024GB, and the data we are dealing with PB may reach the level, 1PB = 1024TB, that can be imagined, how large amount of data is so large data refers to data to be processed is more than the TB level data . For more of these TB-level data, under normal circumstances, a computer hard disk storage space is not store so much data, we now are generally ordinary computer hard drive, and hard disk capacity is usually around 500GB, 1TB some , suppose we have data to be stored 1PB, we give each computer configuration 10 drives, every disk storage capacity is 1T, then they have to use more than 100 computer only capable of storing data obtained under 1PB. So, when we scale the data reaches a certain level, when our previous solution to some of the problems in this scenario has become no longer applies.

1.2, characteristic of large data

  

  大数据,顾名思义,第一个特征就是数据量大,需要非常大的存储空间进行存储,而如果要处理这些海量的数据,那么计算量可想而知,所以计算量非常庞大。而这些数据的来源往往也是多样化的,数据的格式也是多样化的,在我们平时的应用系统开发中,我们要处理的数据来源大多数是存储在数据库中的数据又或者是存储在文件当中,而在大数据时代,我们一个系统要处理的数据来源是多种多样的,这些数据的来源可能是来自数据库,也可能是来自一些监控采集数据,或者是一些科研数据,而数据的格式可能有普通文本,图片、视频、音频、结构化的,非结构化的等等,反正什么样的数据都有。在大数据时代,数据的增长速度是非常快的,例如我们每天打电话,发短信,我们打出去的电话和发出去的短信在移动和联通公司都会有相应的记录,而这样的数据每天都会产生几亿条,数据量的增长速度可想而知,因此要求处理数据的应用系统的处理速度也要快,当我们想展示一些数据给用户看时,如果应用系统的处理速度不够快,那么给用户的体验是非常差的。另外,在大数据领域,我们从海里数据中能够提取到的相对有价值的数据也是非常有限的,我们处理几十个T的数据,从这些数据当中能够提取出来的有价值的信息也是非常少的,大数据分析要想得到一些有价值的结果,那么要求数据要比较全。比如,我们想分析一个用户的购物习惯,她平时喜欢在京东和天猫、淘宝这些电子商务网站上面进行购物,我们分析她在京东商城上面的购物行为时,我们不光要分析她最近一次的购买行为,还要分析她很长一段时间内的历史购买行为,以及在其他电商网站的购买行为,如果我们真的想一体地分析用户的生活习惯,那么不光是要分析她的购物行为,还要分析她的社交行为,比如在一些社交网站上面平时和哪些人联系最多,平时喜欢讨论一些什么话题,从事的职业,年龄,性别等,拿到的数据越全,我们分析的结果就会越准确,所以大数据不光是要求数据量要大,更重要要的是数据要全面,要多维度的,这样我们提取到的数据才是比较有价值,比较准确的。大数据处理领域在价值这一块是稀疏型的,从海量数据当中能够提取到的有价值的数据是非常稀少的。

1.3、存在有大数据的行业

  放眼观世界,现在各行各业每天都会产生大量的数据,21世纪是一个互联网时代,一个信息化的时代,我们这一代人都不可避免地在一些IT系统当中留下我们的脚印,存在有大数据的典型的行业有以下几个行业:

  

  互联网企业是最早收集大数据的行业,最典型的代表就是Google和百度,这两个公司是做搜索引擎的,数量都非常庞大,每天都要去把互联网上的各种各样的网页信息抓取下来存储到本地,然后进行分析,处理,当用户想通过搜索引擎搜索一些他们关心的信息时,Google和百度就从海量的数据当中提取出相对于对用户而言是有用的信息,然后将提取到的结果反馈给用户,据说Google存储的数据量已经到达了上百个PB,这个数据量是非常惊人的。类似于Fackbook这样的SNS(社交网站)因为用户量比较多,用户每天在网站上面分享一些文章,图片,视频,音频等信息,因此每天产生的数据量也是非常庞大的。

二、大数据技术要解决的技术难题

2.1、海量数据如何存储?

  海量数据的存储问题也不是今天才有的,很早以前就出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储,NFS系统的架构如下图所示:

  

  NFS这种解决方案就是同时架设多台文件服务器,如下图所示:

  

  然后在文件服务器上面设置共享目录,例如图中显示的【D:\software、E:\aa\bb、F:\dd\cc、E:\images】

  

  这样我们就可以把文件分类存放到各个文件服务器上面的共享目录当中,一台电脑的存储空间不够用,那么我们就将数据分散到多台电脑进行存储,而这些文件服务器上面的共享目录对于用户来说是透明的,用户会以为自己存放数据的【Software、Tools、film、music】这些目录都是属于【Itdc.com.local】这台文件服务器里面的【public】目录下的子目录,在NFS系统中,【Itdc.com.local】这台文件服务器只是起到一个中转站作用,将用户需要存放的海量数据分类存放到各个文件系统当中,这就解决了大数据的存储问题了。当用户需要访问分散在各个文件服务器中的文件资源时,它只需要访问【Itdc.com.local】这台文件服务器就可以了。

  NFS虽然是解决了海量数据的存储问题,但是在大数据背景下,这种存储方案是不适用的,大数据不光是要解决数据存储问题,更重要的是海量数据的分析,而NFS在海量数据分析方面不能够充分利用多台计算机同时进行分析。

2.2、海量数据如何计算

  一个实际的需求场景——日志分析

  对日志中每一个用户的流量进行汇总就和,如下图所示:

  

  对于这样的一个日志文件,如果只有这么几行数据,我们一般会采用这样的处理方式:
    1、读取一行日志
    2、抽取手机号和流量字段
    3、累加到HashMap中
    4、遍历输出结果

  那么问题来了,如果数据量变得很大呢,比如一个日志文件里面有几个GB数据,

  1. 如果仍然一行一行去读,那么就会因为磁盘的IO瓶颈导致效率太低,速度太慢。
  2. 如果一次性加载到内存,那么就会因为单台计算机的内存空间有限而导致内存溢出。
  3. 如果将中间结果全部缓存到HashMap中,那么也会因为单台计算机的内存空间有限而导致内存溢出。
  4. 可以选择采用多线程处理,但是依然无法改变资源瓶颈的现实,因为一台计算器的CPU资源,内存资源,磁盘IO瓶颈是定,创建再多的线程也无法改变这个现实。

  所以当一个日志文件里面存储了几个GB数据,那么这种情况下就不能采用这种传统的处理方式了。可以看到,在大数据背景下,我们一个简单的业务场景,比如这里的统计用户流量,在数据量变得很大的时候,原来不是问题的一些东西现在都成了问题。那么这些问题该如何解决呢?

解决思路一

  纵向扩展,也就是升级硬件,提高单机性能(增加内存,增强CPU、用更高性能的磁盘(如固态硬盘)),比如可以购买IBM的高端服务器。

  

  优点:

    1、简单易行
  缺点:

    1、单台计算机的扩展空间有限,CPU、内存、磁盘再怎么扩展也是有限的,无法无限扩展。

    2、成本高(高端服务器非常昂贵,几百万甚至上千万一台,一般的小公司承受不起这样高昂的成本)

解决思路二

  

  横向扩展,用多台节点分布式集群处理 (通过增加节点数量提高处理能力,这里说的节点指的就是一台计算机)

  

  核心思想:任务分摊,通过协作来实现单节点无法实现的任务。

  优点:

    1、成本相对低(可采用普通机器)

    2、易于线性扩展

  缺点:

    系统复杂度增加,我们要将我们的web应用部署到每一个节点上面,而多个节点协同工作时就要考虑以下几个问题
      1、如何调度资源
      2、任务如何监控
      3、中间结果如何调度
      4、系统如何容错
      5、如何实现众多节点间的协调

    分布式计算的复杂性就体现在这样的5个问题里面。

三、Hadoop相关概念介绍

 3.1、大数据行业的标准——Hadoop

  Hadoop is an open source may be run on large clusters on the distributed file system operation process and the base frame
  Hadoop good to build an inexpensive machine progress cluster row is stored with offline processing mass data (structured and unstructured) a.

  Hadoop is a technique used to process large data, is used to solve the above-mentioned distributed computing inside five technical problems.

3.2, Hadoop's Logo Picture

  

Origin 3.3, Hadoop's

  

3.4, Hadoop core components

3.4.1, mass storage --HDFS (Hadoop Distributed File System, Hadoop Distributed File System)

  • Distributed easy to expand
  • Cheap and easy to get
  • High throughput
  • High reliability

3.4.2 Distributed Parallel Computing - Resource Scheduling (Yarn) + programming model (the MapReduce)

  • Large capacity and high concurrency
  • Distributed package implementation details
  • Greatly improve the efficiency of the analysis

3.5, Hadoop learning path

  1. Linux operating system, the basic ability
  2. java programming language
  3. Hadoop core components
  4. Such as MapReduce programming model or Spark
  5. Zookeeper-Sqoop-Flume like tool assembly
  6. NoSQL technology, Hbase
  7. Data analysis, mining, machine learning, Mahout

3.6, learning Hadoop technology book recommendations

  1, Hadoop The Definitive Guide Third Edition
  2, Hadoop technology insider

  3, Hadoop combat

Reproduced in: https: //my.oschina.net/zhanghaiyang/blog/606460

Guess you like

Origin blog.csdn.net/weixin_34311757/article/details/92661783