JeeSite、Sqoop学习 day01

今天,我开始了JeeSite和Sqoop的学习。
JeeSite:进行了初步了解、学习了环境部署、快速开发体验、Error解决。
Sqoop:学习了简介、原理、架构、应用场景、环境安装、导入导出工具、MySqlToHDFS。
总结一下:
1.Sqoop简介(sql to hadoop)
官网
http://sqoop.apache.org/
Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。
Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。
2018年8月22日查看,最新的稳定版本是1.4.7,发布时间是2018年2月22日。Sqoop2的最新版本是1.99.7。请注意,1.99.7与1.4.7不兼容,且功能不完整,不适用于生产环境。
Sqoop主要用于把关系型数据库的数据导入到Hadoop及其相关系统(如HBase和Hive)中;也可以把Hadoop系统中的数据导出到关系型数据库里。
2.Sqoop原理(sql to hadoop)
sqoop可以实现把mysql数据导入到Hbase、Hive、HDFS。
也可以实现把HDFS、HBase、Hive的数据导入到Mysql中。
将导入或导出命令翻译成mapreduce程序来实现。
翻译出的mapreduce中,主要是对inputformat和outputformat进行定制。
3.Sqoop应用场景
将业务数据导入分析平台
将分析结果同步到关系数据库
4.Sqoop数据导入工具import
import工具用来将HDFS平台外部的结构化存储系统中的数据导入到Hadoop平台,以便后续分析。使用import工具需要指定split-by参数。Sqoop会根据该参数值对关系型数据库的表数据进行切分,然后将切分后的数据分配到不同的map任务中。每个map负责导入对应区域内的数据。
本质:mysql -> (hbase or hive or hdfs)
5.Sqoop数据导出工具export
本质:(hdfs or hive or hbase)to mysql
6.导入数据
import
本质(mysql、oracle)to(HDFS、Hive、HBase)
在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。
7.导出数据
在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字。

猜你喜欢

转载自blog.csdn.net/m0_49528461/article/details/108857495
今日推荐