说到初识Hadoop，这章我们一起来聊聊，更高效的WordCount。

学习大数据掌握这几个知识点，会少走很多弯路

在聊之前我多说两句，大家既然想学习大数据，那么就请你放弃你自己认为的自学，或者是看几本书就能学会的念头，好好的一步一步的系统的去学习才是王道，毕竟学完之后我们是用来创造价值的，所以一定要好好学。

我从事了5年大数据挖掘，分析开发的工程师，今年年初我花了一个月整理了一份最适合2018年学习的大数据干货，包括数据采

集。数据存储和管理。数据处理和分析。数据隐私和安全。云安全，云技术，人工智能等资料都有整理，想学习的伙伴可以加大

数据学习群：716581014

第二章：更高效的WordCount

2.1 学点SQL吧

你知道数据库吗？你会写SQL吗？

如果不会，求求你了，学点SQL吧。

2.2 SQL版WordCount

在1.6中，你写（或者抄）的WordCount一共有几行代码？

给你看看我的:

SELECT word,COUNT(1) FROM wordcount GROUP BY word;

这便是SQL的魅力，编程需要几十行，我这一句就搞定；使用SQL处理分析Hadoop上的数据，高效、方便、更是趋势。不论是离线计算还是实时计算，越来越多的大数据处理框架都在积极提供SQL接口。

2.3 SQL On Hadoop之Hive

什么是Hive？官方给的解释是：

The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.（看不懂参考第一章，第一条）

为什么说Hive是数据仓库工具，而不是数据库工具呢？有的朋友可能不知道数据仓库，数据仓库是逻辑上的概念，底层使用的是数据库，数据仓库中的数据有这两个特点：最全的历史数据（海量）、相对稳定的；所谓相对稳定，指的是数据仓库不同于业务系统数据库，数据经常会被更新，数据一旦进入数据仓库，很少会被更新和删除，只会被大量查询。而Hive，也是具备这两个特点，因此，Hive适合做海量数据的数据仓库工具，而不是数据库工具。

2.4 安装配置Hive

请参考1.1 和 1.2 完成Hive的安装配置。可以正常进入Hive命令行。

2.5 试试使用Hive

请参考1.1 和 1.2 ，在Hive中创建wordcount表，并运行2.2中的SQL语句。

在Hadoop WEB界面中找到刚才运行的SQL任务。

看SQL查询结果是否和1.4中MapReduce中的结果一致。

2.6 Hive是怎么工作的

上面写的是SQL，为什么Hadoop WEB中看到的是MapReduce任务呢？

2.7 学会Hive的基本命令

创建、删除表；加载数据到表；下载Hive表的数据；

请参考1.2，学习更多关于Hive的语法和命令。

从上面的学习，你已经学到：

HDFS是Hadoop提供的分布式存储框架，它可以用来存储海量数据

MapReduce是Hadoop提供的分布式计算框架，它可以用来统计和分析HDFS上的海量数据而Hive则是SQL On Hadoop

Hive提供了SQL接口，开发人员只需要编写简单易上手的SQL语句，Hive负责把SQL翻译成MapReduce，提交运行

此时，你的”大数据平台”是这样的：

学习大数据掌握这几个知识点，会少走很多弯路

大数据学习群：7165////81014

学习大数据掌握这几个知识点，会少走很多弯路

第二章：更高效的WordCount

猜你喜欢