大数据相关技术入门了解

Hadoop（重点中的重点）：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了，只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念，听我的别纠结这个。等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据，到时候你就不会觉得数据大真好，越大越有你头疼的。当然别怕处理这么大规模的数据，因为这是你的价值所在，让那些个搞Javaee的php的html5的和DBA的羡慕去吧。记住学到这里可以作为你学大数据的一个节点。

Hadoop是后续整个集群环境的基础，很多框架的使用都是会依赖于Hadoop。主要是由HDFS、MapReduce、YARN组成。这个部分安装Hadoop，Hadoop的三个主要组成部分是重点，对他们的概念要理解出来，知道他们是做什么的，搭建集群环境，伪分布式模式和完全分布式模式的搭建，重要的是完全分布式的搭建，这些部分一定要自己动手实践，自己搭建集群，仔细仔细再仔细，Hadoop的NameNode，DataNode，YARN的启动关闭命令一定要知道，以及他们的启动关闭顺序要记住，不要搞混。后续视频会有一些案例操作，跟着写代码，做测试，把基本环境都配置好，后续这个集群（完全分布式需要三台虚拟机）要一直使用。

Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。分布式安装ZK，对ZK有一定的了解就可以了，了解它的应用场景，以及内部原理，跟着做一些操作，基本上有一些了解即可。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那？你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive（重点）：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那？它和Pig差不多掌握一个就可以了。

Hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive的安装，它的数据类型，以及它的数据定义、数据操作有较好的了解，怎么操作表（创建表、删除表，创建什么类型的表，他们有什么不同），怎么操作数据（加载数据，下载数据，对不同的表进行数据操作），对数据的查询一定要进行实践操作，以及对压缩方式和存储格式要有一些了解，用到时不懂也可以去查，最好是能理解清楚。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase（重点）：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

HBase是一个分布式的、基于列存储的开源数据库。HBase适合存储PB级别的海量数据，也可以说HBase是很适合大数据的存储的，它是基于列式存储数据的，列族下面可以有非常多的列，列族在创建表的时候就必须指定。

Kafka：这是个比较好用的队列工具，队列是干吗的？排队买票你知道不？数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据（比如好几百G的文件）我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方（比如Kafka）的。

Kafka（重点）是一个分布式消息队列，用来缓存数据的。比如说实时计算中可以通过Flume+Kafka对数据进行采集处理之后，Spark Streaming再使用Kafka相应的Topic中的数据，用于后续的计算使用。对于Kafka，要理解Kafka的架构，什么是Kafka，为什么需要Kafka，应用场景。基本的命令行操作要掌握，比如怎么创建删除Topic，怎么通过生产者生成数据，消费者怎么消费数据等基本操作，官网也是有一些案例可以查阅的。

Spark（重点中的重点）：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

Spark是基于内存计算的，对于数据的处理速度要比MapReduce快很多很多，而且数据挖掘这些都是要对数据做迭代式计算，MapReduce对数据的处理方式也不适合，而Spark是可以进行迭代式计算，很适合数据挖掘等场景。Spark的Spark SQL能够对结构化数据进行处理，Spark SQL的DataFrame或DataSet可以作为分布式SQL查询引擎的作用，可以直接使用Hive上的表，对数据进行处理。Spark Streaming主要用于对应用场景中的实时流数据进行处理，支持多种数据源，DStream是Spark Streaming的基础抽象，由一系列RDD组成，每个RDD中存放着一定时间段的数据，再对数据进行处理，而且是基于内存计算，速度快，所以很适合实时数据的处理。Spark MLlib提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。对Spark的核心组件、部署模式（主要是Standalone模式和YARN模式）、通讯架构、任务调度要有一定了解（面试问到了可以说一波），Spark Shuffle要好好理解，还有内存管理要知道，对Spark的内核原理一定要好好理解，不仅面试可能要用，以后工作也是有帮助的，

Flink（重点中的重点，根据时间来安排学习）：刚才都说用Kafka能让数据排上队了，那不得按队型给处理一波，怎么处理用Flink一个个处理啊，来一个算一个速度贼快，这就是常说的流式计算。另外Flink还有一些小绝招，比如：不用你操心有的数据掉队了怎么办，数据想聚在一起开个小会怎么办，数据队型非得有序怎么办，压力太大了怎么办，一不小心掉坑里了人家还能帮你恢复。另外还有各种骚操作什么序列化啊、排序啊、省内存啊甚至JVM怎么调优都通通帮你想好了。所以说吗有了它大数据也能算的飞快。另外你阿里爸爸给它买了，所以它以后是咱们中国人的。

Flink是一个框架和分布式处理引擎，用于对无界（有开始无结束）和有界（有开始有结束）数据流进行有状态计算。现在主要是阿里这种大公司使用的比较多，中国很多公司使用的还是Spark居多，而且Flink基本上都是和Spark很多功能大体上一样的，但是以后Flink和Spark孰强孰弱还有待时间的考验，不过Flink近几年越来越火了这是事实，所以如果有时间有精力的话，可以学一学Flink相关的内容也是很不错的。Spark和Flink主要都是在数据处理方面应用，在数据处理方面的话，离线数据处理：Flink暂时比不上Spark，Spark SQL优点在于可以和Hive进行无缝连接，Spark SQL可以直接使用Hive中的表；Flink暂时做不到这一步，因为官方不支持这一操作，Flink只能将数据读取成自己的表，不能直接使用Hive中的表。对于实时数据的处理：Flink和Spark可以说是平分秋色吧，而且Flink是以事件为驱动对数据进行处理，而Spark是以事件为驱动对数据进行处理，在一些应用场景中，也许Flink的效果比Spark的效果还要好些，因为Flink对数据更加的敏感。比如一秒钟如果触发了成千上万个事件，那么时间驱动型就很难对数据做细致的计算，而事件驱动型可以以事件为单位，一个个事件进行处理，相比而言延迟更低，处理效果更好。还是那句话，虽然现在使用的公司较少，但是有时间接触学习下，也是没有坏处的。

Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。对于Flume，对它的组成架构，以及对Flume Agent的内部原理要理解清楚，Source、Channel、Sink一定要知道它们的各种类型以及作用，有哪些拓扑结构是常见常用的，例如一对一，单Source、多Channel、多Sink等，它们有什么作用，要理解清楚。还有一个重点，就是对Flume的配置文件一定要了解清楚，不懂的可以上官网查看案例，对于不同的情况，它的配置文件要做相应的修改，才能对数据进行采集处理，视频中的实践案例一定要跟着做。

大数据相关技术入门了解

猜你喜欢