大数据应用架构

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据递，可以将一个关系型数据库 （例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个 Apache项目。

javaNIO IO处理客户端请求的最小单位是线程而NIO使用了比线程还小一级的单位：通道（Channel）
可以说，NIO中只需要一个线程就能完成所有接收，读，写等操作

                 要学习NIO，首先要理解它的三大核心
                 Selector，选择器
                 Buffer，缓冲区
                Channel，通道

消息队列（MQ）是一种应用程序对应用程序的通信方法

消息队列主要解决了应用耦合、异步处理、流量削锋等问题。

当前使用较多的消息队列有RabbitMQ、RocketMQ、ActiveMQ、Kafka、ZeroMQ、MetaMq等，而部分数据库如Redis、Mysql以及phxsql也可实现消息队列的功能。

HDFS Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

HCatalog是Hadoop的表存储管理工具。它将Hive Metastore的表格数据暴露给其他Hadoop应用程序。它使具有不同数据处理工具（Pig，MapReduce）的用户能够轻松地将数据写入网格。它确保用户不必担心其数据的存储位置或格式。

使用方法：http://www.tutorialspoint.com/hcatalog/hcatalog_quick_guide.htm

HBase是一个分布式的、面向列的开源数据库 https://www.yiibai.com/hbase/ 相关教程

redis 官网 https://redis.io/

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算分批次 hive 封装写sql 语句

扫描二维码关注公众号，回复： 3225805 查看本文章

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

实时流处理Storm、Spark Streaming、Samza、Flink pig 封装写sql 语句

猜你喜欢