Sqoop总结

官网：http://sqoop.apache.org/

概述

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；

导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等

工作机制

将导入或导出命令翻译成mapreduce程序来实现

在翻译出的mapreduce中主要是对inputformat和outputformat进行定制

sqoop安装

安装sqoop的前提是已经具备java和hadoop的环境

1-1）、下载并解压

软件下载：

链接：http://pan.baidu.com/s/1ge3wD1p 密码：0dgs 如果无法下载请联系作者。

[root@hadoop1 sqoop]# tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

[root@hadoop1 sqoop]# mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop

[root@hadoop1 sqoop]# cd conf/

1-2）、修改配置文件

[root@hadoop1 conf]# cp sqoop-env-template.sh sqoop-env.sh

[root@hadoop1 conf]# vi sqoop-env.sh

export HADOOP_COMMON_HOME=/usr/local/hadoop-2.6.4

export HADOOP_MAPRED_HOME=/usr/local/hadoop-2.6.4

export HIVE_HOME=/usr/local/hive

1-3）、加入mysql的jdbc驱动包

[root@hadoop1 lib]# cp /usr/local/hive/lib/mysql-connector-java-5.1.39.jar /usr/local/sqoop/lib/

1-4 ) 、启动

[root@hadoop1 conf]# cd ../bin/

[root@hadoop1 bin]# ./sqoop-version

Warning: /usr/local/sqoop/bin/../../hbase does not exist! HBase imports will fail.

Please set $HBASE_HOME to the root of your HBase installation.

Warning: /usr/local/sqoop/bin/../../hcatalog does not exist! HCatalog jobs will fail.

Please set $HCAT_HOME to the root of your HCatalog installation.

Warning: /usr/local/sqoop/bin/../../accumulo does not exist! Accumulo imports will fail.

Please set $ACCUMULO_HOME to the root of your Accumulo installation.

16/09/28 16:05:12 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6

Sqoop 1.4.6

git commit id c0c5a81723759fa575844a0a1eae8f510fa32c25

Compiled by root on Mon Apr 27 14:38:36 CST 2015

警告可以省略、、、

Sqoop的数据导入

Sqoop 支持导入与导出数据到HDFS与mysql , hive中的TBLS表中的数据

下面的语法用于将数据导入HDFS。

$ sqoop import (generic-args) (import-args)

导入到HDFS默认目录

1-1 )、导入数据

[root@hadoop1 bin]# ./sqoop import --connect jdbc:mysql://localhost:3306/mysql --username it --password it --table user --m 1

********

Map-Reduce Framework

Map input records=11

Map output records=11

Input split bytes=87

Spilled Records=0

Failed Shuffles=0

Merged Map outputs=0

GC time elapsed (ms)=72

CPU time spent (ms)=0

Physical memory (bytes) snapshot=0

Virtual memory (bytes) snapshot=0

Total committed heap usage (bytes)=59621376

File Input Format Counters

Bytes Read=0

File Output Format Counters

Bytes Written=1386

16/09/28 16:36:15 INFO mapreduce.ImportJobBase: Transferred 1.3535 KB in 26.3647 seconds (52.5704 bytes/sec)

16/09/28 16:36:15 INFO mapreduce.ImportJobBase: Retrieved 11 records.

--connect 需要链接的驱动串

--username 链接用户名

--pssword 链接密码

-- table 需要对那个表操作

--m 需要多少个mapreduce

1-2）、查看数据

[root@hadoop1 bin]# hadoop fs -ls /user/root/user

Found 2 items

-rw-r--r-- 3 root supergroup 0 2016-09-28 16:36 /user/root/user/_SUCCESS

-rw-r--r-- 3 root supergroup 1386 2016-09-28 16:36 /user/root/user/part-m-00000

[root@hadoop1 bin]# hadoop fs -cat /user/root/user/part-m-00000

localhost,root,,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

hadoop1,root,,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

127.0.0.1,root,,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

::1,root,,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

localhost,,,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,,,,,0,0,0,0,mysql_native_password,null,N

hadoop1,,,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,N,,,,,0,0,0,0,mysql_native_password,null,N

%,myuser,*FABE5482D5AADF36D028AC443D117BE1180B9725,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

%,root,*81F5E21E35407D884A6CD4A731AEBFB6AF209E1B,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

%,it,*EDD9BF22E6B82D19548E3F1FE5DCE4EE104BA3A7,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

%,itoffice,*FE2B2BCDE5445749A0C82A89B738BD0BD6B1F407,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

localhost,it,*EDD9BF22E6B82D19548E3F1FE5DCE4EE104BA3A7,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,,,,,0,0,0,0,mysql_native_password,,N

导入到HDFS指定目录

1-1）、导入数据

以下的导出来的数据是以逗号分隔的

[root@hadoop1 bin]# ./sqoop import --connect jdbc:mysql://localhost:3306/mysql --username it --password it --target-dir /sqoop --table user --m 1

************

Map-Reduce Framework

Map input records=11

Map output records=11

Input split bytes=87

Spilled Records=0

Failed Shuffles=0

Merged Map outputs=0

GC time elapsed (ms)=76

CPU time spent (ms)=0

Physical memory (bytes) snapshot=0

Virtual memory (bytes) snapshot=0

Total committed heap usage (bytes)=56848384

File Input Format Counters

Bytes Read=0

File Output Format Counters

Bytes Written=1386

16/09/28 16:55:35 INFO mapreduce.ImportJobBase: Transferred 1.3535 KB in 18.283 seconds (75.8079 bytes/sec)

16/09/28 16:55:35 INFO mapreduce.ImportJobBase: Retrieved 11 records.

1-2）、查看数据

[root@hadoop1 testData]# hadoop fs -ls /sqoop

Found 2 items

-rw-r--r-- 3 root supergroup 0 2016-09-28 16:55 /sqoop/_SUCCESS

-rw-r--r-- 3 root supergroup 1386 2016-09-28 16:55 /sqoop/part-m-00000

[root@hadoop1 testData]# hadoop fs -cat /sqoop/part-m-00000