大数据应用架构

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiaoleizhanghahaha/article/details/80900734


Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据递,         可以将一个关系型数据库 (例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
            Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个 Apache项目。
javaNIO    IO处理客户端请求的最小单位是线程 而NIO使用了比线程还小一级的单位:通道(Channel)
                可以说,NIO中只需要一个线程就能完成所有接收,读,写等操作

                 要学习NIO,首先要理解它的三大核心
                 Selector,选择器
                 Buffer,缓冲区
                Channel,通道

消息队列(MQ)是一种应用程序对应用程序的通信方法

消息队列主要解决了应用耦合、异步处理、流量削锋等问题。

当前使用较多的消息队列有RabbitMQ、RocketMQ、ActiveMQ、Kafka、ZeroMQ、MetaMq等,而部分数据库如Redis、Mysql以及phxsql也可实现消息队列的功能。

HDFS  Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

HCatalog是Hadoop的表存储管理工具。它将Hive Metastore的表格数据暴露给其他Hadoop应用程序。它使具有不同数据处理工具(Pig,MapReduce)的用户能够轻松地将数据写入网格。它确保用户不必担心其数据的存储位置或格式。

使用方法:http://www.tutorialspoint.com/hcatalog/hcatalog_quick_guide.htm

HBase是一个分布式的、面向列的开源数据库 https://www.yiibai.com/hbase/     相关教程

redis  官网  https://redis.io/

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算  分批次   hive 封装  写sql 语句

扫描二维码关注公众号,回复: 3225805 查看本文章

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

实时流处理Storm、Spark Streaming、Samza、Flink    pig 封装  写sql 语句




猜你喜欢

转载自blog.csdn.net/xiaoleizhanghahaha/article/details/80900734