Sqoop常用命令及参数一
常用命令列举
import
将数据导入到集群
export
将集群数据导出
codegen
获取数据库中某张表数据生成 Java 并打包Jar
create-hive-table
创建 Hive 表
eval
查看 SQL 执行结果
import-all-tables
导入某个数据库下所有表到 HDFS 中
job
用来生成一个 ...
Sqoop常用命令及参数二
4.create-hive-table
生成与关系数据库表结构对应的 hive 表结构
--hive-home <dir>
Hive 的安装目录,可以通过该参数覆盖掉默认的 Hive 目
录
--hive-overwrite
覆盖掉在 Hive 表中已经存在的数据
--create-hive-table
默认是 false,如果目标表已经存在了,那么...
Flume使用案例一
1.安装部署Flume
我这里Flume的版本是CDH5.3.6的,下载地址 http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.5.0-cdh5.3.6.tar.gz
上传解压之后修改配置文件
mv flume-env.sh.template flume-env.sh
vi flume-env.sh
将export JAVA_HO...
Flume使用案例二
之前的案例一只算是一个小demo,在实际生产环境中是不会用Flume来做这种需求的
实时监控hive日志,并上传到HDFS中
1)拷贝Hadoop相关jar包到Flume的lib目录下(将监控日志实时上传到HDFS中,相当于持有Hadoop的API,才能操作Hadoop)
hadoop/common/lib/hadoop-auth-2.5.0-cdh5.3.6.jar
hadoop/com...
Flume使用案例三
实时读取目录文件到HDFS
使用flume监听整个目录的文件
1)创建Job的job_flume2.conf文件
a3.sources = r3
a3.sinks = k3
a3.channels = c3
# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/...
Flume使用案例四
Flume与Flume之间传递数据: 单Flume,多channel,sink
使用 flume-1 监控文件变动,flume-1 将变动内容传递给 flume-2,flume-2 负责存储到HDFS,同时 flume-1 将变动内容传递给 flume-3,flume-3 负责输出到本地文件目录
1)创建 flume-1.conf,用于监控 hive.log 文件的变动,同时产生两个 cha...
Flume使用案例五
Flume与Flume之间数据传递,多Flume汇总数据到单Flume
flume-1 监控文件 hive.log,flume-2 监控某一个端口的数据流,flume-1 与 flume-2 将数据发送给 flume-3,flume3 将最终数据写入到 HDFS
1)创建 flume-1.conf,用于监控 hive.log 文件,同时 sink 数据到 flume-3
# Name th...
Kafka消息队列内部实现原理
1.实现原理
1).点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)主动拉取指定时轮寻的去请求Kafka的端口
点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的
特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此
2).发布/订阅模式(一对多,数据生产后,推送给所有订阅者)
发布...
ES插件开发之--如何添加自己的动态设置项
ES中,有一类参数是可以动态调整的,比如副本数量:number_of_replicas。在插件开发中,如何添加自己的自定义参数呢?在插件的入口,添加onModule(ClusterModulemodule)即可。publicclassShgyPluginextendsPlugin{@OverridepublicStringname(){return"shgy-plugin";}@Overridep
Kafka分布式集群部署
Kafka下载地址: http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.0.0/kafka_2.12-2.0.0.tgz
1.上传解压
下载好Kafka的压缩包之后上传到机器上,并解压
2.在Kafka目录下创建log目录,用来存放kafka的日志文件
3.修改配置文件
cd config
vi server.properti...
Kafka常用命令操作
1.创建topic(主题)
bin/kafka-topics.sh --zookeeper cdh0:2181 --create --replication-factor 3 --partitions 3 --topic first
说明:
--topic:定义topic名
--replication-factor: 定义副本数
--partitions: 定义分区数
2....
Kafka中Broker保存消息的方式
1.存储方式
物理上把topic分成一个或多个patition(对应 server.properties 中的num.partitions=3配置),每个patition物理上对应一个文件
(该文件夹存储该patition的所有消息和索引文件)
2.存储策略
无论消息是否被消费,kafka都会保留所有消息。有两种策略可以删除旧数据:
1)基于时间:log.retention.hours=...
Kafka生产者Java API
准备工作:
maven工程,zookeeper集群
1.开启Kafka集群,这里可以参考我之前的文章,里面有详细的教程
2.Java API编程
maven的pom.xml文件
<dependencies>
<dependency>
<groupId>org.apache.kafka</groupId>
<artif...
Kafka中自定义分区Java API
自定义分区API只是在Producer API的基础上加入了一些内容
这里直接展示出代码
ProducerPartition.java
package cn.ysjh;
import java.util.Properties;
import org.apache.kafka.clients.producer.Callback;
import org.apache.kafka.clien...
今日推荐
周排行