Hadoop基础学习：基于Hortonworks
HDP

我最开始是通过Hadoop Fundamentals这个课程学习了Hadoop的基础知识，该课程使用了Hortonworks的HDP作为Hadoop平台。HDP是一个与Cloudera,
MapR类似的一个企业级Hadoop解决方案，而HDP Sandbox给开发者提供了一个安装好所有Hadoop组件的虚拟机，将其导入到VirtualBox后就可以直接启动（注意需要给虚拟机分配至少2G内存）。

Big Data和Hadoop

大数据是一个热门词汇，而Hadoop可以说是目前大数据处理的基石。大数据并不是说一定要处理特别大规模的数据，而是在于可以在各种数据尺度上找到你要的答案，这些数据包括：用户数据，机器数据等等。我们可以从基础设施，算法和可视化等各个方面来理解大数据。

在基础设施方面，我们有Hadoop的HDFS作为文件系统，MapReduce来做批处理，此外有HBase，Cassandra，Riak等NoSQL数据库，还有Kafka，RabbitMQ等消息中间件。在算法方面，主要是对现有的机器学习算法的实现。在可视化方面，常见的有Matplotlib（python语言），R语言，D3（JavaScript语言）。

初步认识HDP

HDP是操作系统是CentOS 6，启动后除了可以用ssh登陆以外，还可以登陆网页界面（http://127.0.0.1:8888）。系统默认帮我们安装的软件主要包括：

HDFS + MapReduce
Hue
HCatelog
Pig
Hive

HBase默认没有安装，启用HBase的话应该需要给虚拟机分配更多内存。

Hadoop是一个开源的数据分析平台，它与传统的数据分析平台相比当然有很多优点（开源，性价比，扩展性等），但是它们本质上并没有太大不同。一个完整的数据分析平台需要的组件Hadoop都有涉及：

数据存储 : HDFS提供一个可扩展和容错的文件系统
数据处理：MapReduce等提供了的数据访问和处理模型
数据管理：HCatelog提供数据管理，管理数据到文件的映射（相当于RDBMS数据库中管理表结构与表文件的关系）
数据查询：Pig和Hive对数据文件的查询，它们在底层都基于MapReduce模型来处理数据。其中Hive的特点在于提供类似于SQL语言的查询环境，Pig提供了自己的数据处理语言
系统管理：Zookeeper和Oozie等

通过HDP自带的教程学习了Hive和Pig的基本知识，HDP自带了基于Web的Hive和Pig的查询界面，使用起来比命令行要友好。

Pig脚本

Pig首先实现了一种ETL语言(PigLatin)，通过使用LOAD，GROUP等系统命令以及自定义命令，可以对数据进行复杂的处理。另一方面，Pig在执行命令时会把命令转化为MapReduce任务，也就是说对于很多MapReduce操作用户不再需要使用冗长的Java编程=》编译=》执行流程。最后，Pig也允许用户实现自定义方法（UDF）来扩展功能。

//从文件中加载数据
batting = load 'Batting.csv' using PigStorage(',');
//读取文件中的若干列
runs = FOREACH batting GENERATE $0 as playerID, $1 as year, $8 as runs;
//按照年份划分数据
grp_data = GROUP runs by (year);
//对划分后的数据进行进一步处理
max_runs = FOREACH grp_data GENERATE group as grp,MAX(runs.runs) as max_runs;
//连接max_runs和runs，按照指定的两个列连接，连接的表包括两表的所有列
join_max_run = JOIN max_runs by ($0, max_runs), runs by (year,runs);
//重新选取部分列
join_data = FOREACH join_max_run GENERATE $0 as year, $2 as playerID, $1 as runs;
dump join_data;

Hive查询

如果说Pig在传统数据仓库的意义上是一种ETL语言（当然Pig的用处不止于此），那么Hive相当于传统数据仓库中的SQL语言。Hive则可以允许你创建表，在表中导入和处理数据，数据处理的结果可以再保存到表中。Hive和Pig的详细比较可以参照这篇文章。

下面这写Hive命令实现了与前面Pig脚本一样的功能。

create table temp_batting (col_value STRING);
LOAD DATA INPATH '/user/hue/Batting.csv' OVERWRITE INTO TABLE temp_batting;
create table batting (player_id STRING, year INT, runs INT);
insert overwrite table batting
SELECT
regexp_extract(col_value, '^(?:([^,]*)\,?){1}', 1) player_id,
regexp_extract(col_value, '^(?:([^,]*)\,?){2}', 1) year,
regexp_extract(col_value, '^(?:([^,]*)\,?){9}', 1) run
from temp_batting;
SELECT year, max(runs) FROM batting GROUP BY year;
SELECT a.year, a.player_id, a.runs from batting a
JOIN (SELECT year, max(runs) runs FROM batting GROUP BY year ) b
ON (a.year = b.year AND a.runs = b.runs) ;

HBase和MapReduce编程

HBase是Google的BigTable的一种实现，即面向列的数据库。HBase相对于Hadoop比较独立，原因在于：1）HBase不依赖于MapReduce，它可以完全不在HDFS上部署，虽然在生产环境上会推荐部署到HDFS上；2）HBase的编程模型也不一定是MapReduce。

HBase和MapReduce编程可以参考Hadoop:
The Definitive Guide。

Hadoop的最新发展

Apache Tez，新一代的准实时（near real-time）大数据处理。在Hadoop 2.0的环境下，MapReduce（也就是传统的Batch编程模式）仅仅是其一种实现，而Tez成为了新一代的任务执行引擎，反过来支持MapRecue，Pig，Hive等功能。

Apache Storm，实时数据处理

Apache Flume，流式数据（例如日志）的处理

Apache Mahout，机器学习算法库

Apache ZooKeeper 分布式系统协调服务