学习大数据掌握这几个知识点,会少走很多弯路

说到初识Hadoop,这章我们一起来聊聊,更高效的WordCount。

学习大数据掌握这几个知识点,会少走很多弯路

在聊之前我多说两句,大家既然想学习大数据,那么就请你放弃你自己认为的自学,或者是看几本书就能学会的念头,好好的一步一步的系统的去学习才是王道,毕竟学完之后我们是用来创造价值的,所以一定要好好学。

我从事了5年大数据挖掘,分析开发的工程师,今年年初我花了一个月整理了一份最适合2018年学习的大数据干货,包括数据采

集。数据存储和管理。数据处理和分析。数据隐私和安全。云安全,云技术,人工智能等资料都有整理,想学习的伙伴可以加大

数据学习群:716581014

第二章:更高效的WordCount

2.1 学点SQL吧

你知道数据库吗?你会写SQL吗?

如果不会,求求你了,学点SQL吧。

2.2 SQL版WordCount

在1.6中,你写(或者抄)的WordCount一共有几行代码?

给你看看我的:

SELECT word,COUNT(1) FROM wordcount GROUP BY word;

这便是SQL的魅力,编程需要几十行,我这一句就搞定;使用SQL处理分析Hadoop上的数据,高效、方便、更是趋势。不论是离线计算还是实时计算,越来越多的大数据处理框架都在积极提供SQL接口。

2.3 SQL On Hadoop之Hive

什么是Hive?官方给的解释是:

The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage and queried using SQL syntax.(看不懂参考第一章,第一条)

为什么说Hive是数据仓库工具,而不是数据库工具呢?有的朋友可能不知道数据仓库,数据仓库是逻辑上的概念,底层使用的是数据库,数据仓库中的数据有这两个特点:最全的历史数据(海量)、相对稳定的;所谓相对稳定,指的是数据仓库不同于业务系统数据库,数据经常会被更新,数据一旦进入数据仓库,很少会被更新和删除,只会被大量查询。而Hive,也是具备这两个特点,因此,Hive适合做海量数据的数据仓库工具,而不是数据库工具。

2.4 安装配置Hive

请参考1.1 和 1.2 完成Hive的安装配置。可以正常进入Hive命令行。

2.5 试试使用Hive

请参考1.1 和 1.2 ,在Hive中创建wordcount表,并运行2.2中的SQL语句。

在Hadoop WEB界面中找到刚才运行的SQL任务。

看SQL查询结果是否和1.4中MapReduce中的结果一致。

2.6 Hive是怎么工作的

上面写的是SQL,为什么Hadoop WEB中看到的是MapReduce任务呢?

2.7 学会Hive的基本命令

创建、删除表;加载数据到表;下载Hive表的数据;

请参考1.2,学习更多关于Hive的语法和命令。

从上面的学习,你已经学到:

HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据

MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据而Hive则是SQL On Hadoop

Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行

此时,你的”大数据平台”是这样的:

学习大数据掌握这几个知识点,会少走很多弯路

大数据学习群:7165////81014

猜你喜欢

转载自blog.csdn.net/qq_41842569/article/details/82765993