大数据(一)——概念入门

最近在B站上看一套44集的大数据教程——经典Hadoop分布式系统基础架构。想通过对Hadoop的学习，跳到大数据领域当中。作为大数据的开篇，主要是做一些大数据扫盲，并且重点介绍Hadoop需要学些什么。

1.何为大数据

IBM提出大数据具有5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）；
百度拥有两种类型的大数据：用户搜索表征的需求数据；爬虫和阿拉丁获取的公共web数据搜索巨头百度围绕数据而生；
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现，挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据，如微博和高德；
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息，甚至预测未来。

大数据都应该具备以下几个过程：数据采集、数据清洗、数据建模、数据加工、数据展现。
大数据时代已经到来，必须有大数据思维去发掘大数据的潜在价值，三分技术，七分数据，得数据者得天下。我们需要像维克托·迈尔-舍恩伯格一样有大数据思维：a.需要全部数据样本而不是抽样；b.关注效率而不是精确度；c.关注相关性而不是因果关系

2.大数据就业方向

1）Hadoop开发工程师：解决大数据存储问题；
2）数据分析师：数据搜集、整理、分析，并依据数据做出行业研究、评估和预测，有点像数学建模了；
3）数据挖掘工程师：从海量数据中发现规律，这就需要一定的数学知识；
4）大数据可视化工程师：依据产品业务功能，设计符合需求的可视化方案。

3.大数据需求

去拉勾网随便看了看，需求是很多的。就业方向，个人认为Hadoop开发工程师比较合适，看了一下大部分要求是希望会Java、并且懂得Hadoop平台的搭建与原理。

4.Hadoop的体系

Hadoop是一个分布式系统基础架构。可以看成一个数据管理系统，数据分析是核心，并且汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。可以看成是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。也可以看成一个开源社区，主要为解决大数据的问题提供工具和软件。

上面这张图片介绍了Hadoop的整个生态，类似spring那种全家桶一样，告诉我们整个框架里都有些什么组件。下面简单介绍一下各个组件：
1)HDFS
Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统（HDFS）。HDFS 是一种数据分布式保存机制，数据被保存在计算机集群上。数据写入一次，读取多次。HDFS为 HBase 等工具提供了基础。
2)MapReduce
Hadoop 的主要执行框架是 MapReduce，它是一个分布式、并行处理的编程模型。MapReduce 把任务分为map(映射)阶段和 reduce(化简)。开发人员使用存储在HDFS 中数据（可实现快速存储），编写 Hadoop 的 MapReduce 任务。由于 MapReduce工作原理的特性， Hadoop 能以并行的方式访问数据，从而实现快速访问数据HDFS 中数据（可实现快速存储），编写 Hadoop 的 MapReduce 任务。由于 MapReduce工作原理的特性， Hadoop 能以并行的方式访问数据，从而实现快速访问数据。
3)Hbase
HBase 是一个建立在 HDFS 之上，面向列的 NoSQL 数据库，用于快速读/写大量数据。HBase 使用 Zookeeper 进行管理，确保所有组件都正常运行。
4)ZooKeeper
用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群上面，用于管理 Hadoop 操作。
5)Hive
Hive 类似于 SQL 高级语言，用于运行存储在 Hadoop 上的查询语句，Hive 让不熟悉 MapReduce 开发人员也能编写数据查询语句，然后这些语句被翻译为 Hadoop 上面的 MapReduce 任务。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程的数据分析师。
6)Pig
它是 MapReduce 编程的复杂性的抽象。Pig 平台包括运行环境和用于分析 Hadoop数据集的脚本语言(Pig Latin)。其编译器将 Pig Latin 翻译成 MapReduce 程序序列。
7)Sqoop
是一个连接工具，用于在关系数据库、数据仓库和 Hadoop 之间转移数据。Sqoop利用数据库技术描述架构，进行数据的导入/导出；利用 MapReduce 实现并行化运行和容错技术。

5.心得

Hadoop思想基本全来源于Google，前身是作为搜索引擎的lucene。提到搜索引擎就不得不说它面临的两大问题，首先大量的网页该怎么存储？Google中有个Google File System，通过很多PC服务器，把网页发布到各个节点，有冗余，有调度，这就是Hadoop两大支柱之一的HDFS；另外，当搜索出100条结果该怎么推送，这时候就需要评估价值，Google中通过PageRank计算，但是数据量很大，可能导致矩阵元素高达百亿，算不了，PageRank会将网页分散到各个节点，分开汇总，累加计算，进行迭代，这就是Hadoop另一大支柱MapReduce。
想到一个问题按住Ctrl不放，然后移动方向键，会发现光标跳跃的是分词语进行，这也说明用到了分词器啥的。