Sqoop常用命令及参数一

常用命令列举 import 将数据导入到集群 export 将集群数据导出 codegen 获取数据库中某张表数据生成 Java 并打包Jar create-hive-table 创建 Hive 表 eval 查看 SQL 执行结果 import-all-tables 导入某个数据库下所有表到 HDFS 中 job 用来生成一个 ...
分类: 其他 发布时间: 09-25 23:39 阅读次数: 0

Sqoop常用命令及参数二

4.create-hive-table 生成与关系数据库表结构对应的 hive 表结构 --hive-home <dir> Hive 的安装目录,可以通过该参数覆盖掉默认的 Hive 目 录 --hive-overwrite 覆盖掉在 Hive 表中已经存在的数据 --create-hive-table 默认是 false,如果目标表已经存在了,那么...
分类: 其他 发布时间: 09-25 23:39 阅读次数: 0

Flume初识

Flume官方文档:  http://flume.apache.org/FlumeUserGuide.html 1.Flume简介     1)Flume 提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务     2)Flume 只能在 Unix 环境下运行     3)Flume 基于流式架构,容错性强,也很灵活简单     4)Flume、Kafka 用来实时进行数...
分类: 其他 发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例一

1.安装部署Flume 我这里Flume的版本是CDH5.3.6的,下载地址  http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.5.0-cdh5.3.6.tar.gz   上传解压之后修改配置文件 mv flume-env.sh.template  flume-env.sh vi flume-env.sh 将export JAVA_HO...
分类: 其他 发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例二

之前的案例一只算是一个小demo,在实际生产环境中是不会用Flume来做这种需求的 实时监控hive日志,并上传到HDFS中 1)拷贝Hadoop相关jar包到Flume的lib目录下(将监控日志实时上传到HDFS中,相当于持有Hadoop的API,才能操作Hadoop) hadoop/common/lib/hadoop-auth-2.5.0-cdh5.3.6.jar hadoop/com...
分类: 其他 发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例三

实时读取目录文件到HDFS 使用flume监听整个目录的文件 1)创建Job的job_flume2.conf文件 a3.sources = r3 a3.sinks = k3 a3.channels = c3 # Describe/configure the source a3.sources.r3.type = spooldir a3.sources.r3.spoolDir = /opt/...
分类: 其他 发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例四

Flume与Flume之间传递数据:  单Flume,多channel,sink 使用 flume-1 监控文件变动,flume-1 将变动内容传递给 flume-2,flume-2 负责存储到HDFS,同时 flume-1 将变动内容传递给 flume-3,flume-3 负责输出到本地文件目录 1)创建 flume-1.conf,用于监控 hive.log 文件的变动,同时产生两个 cha...
分类: 其他 发布时间: 09-25 23:37 阅读次数: 0

Flume使用案例五

Flume与Flume之间数据传递,多Flume汇总数据到单Flume flume-1 监控文件 hive.log,flume-2 监控某一个端口的数据流,flume-1 与 flume-2 将数据发送给 flume-3,flume3 将最终数据写入到 HDFS 1)创建 flume-1.conf,用于监控 hive.log 文件,同时 sink 数据到 flume-3 # Name th...
分类: 其他 发布时间: 09-25 23:37 阅读次数: 0

Kafka消息队列内部实现原理

1.实现原理 1).点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)主动拉取指定时轮寻的去请求Kafka的端口 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的 特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此 2).发布/订阅模式(一对多,数据生产后,推送给所有订阅者) 发布...
分类: 其他 发布时间: 09-25 23:37 阅读次数: 0

Kafka架构介绍

1).Producer :消息生产者,就是向kafka broker发消息的客户端。 2).Consumer :消息消费者,向kafka broker取消息的客户端 3).Topic :可以理解为一个队列。 4).Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个topic...
分类: 其他 发布时间: 09-25 23:36 阅读次数: 0

Acronis True Image 2019 v23.3.1.14110

Acronis True Image 2019 v23.3.1.14110
分类: 企业开发 发布时间: 09-25 23:36 阅读次数: 0

ES插件开发之--如何添加自己的动态设置项

ES中,有一类参数是可以动态调整的,比如副本数量:number_of_replicas。在插件开发中,如何添加自己的自定义参数呢?在插件的入口,添加onModule(ClusterModulemodule)即可。publicclassShgyPluginextendsPlugin{@OverridepublicStringname(){return"shgy-plugin";}@Overridep
分类: 企业开发 发布时间: 09-25 23:36 阅读次数: 0

Kafka分布式集群部署

Kafka下载地址:     http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.0.0/kafka_2.12-2.0.0.tgz 1.上传解压 下载好Kafka的压缩包之后上传到机器上,并解压 2.在Kafka目录下创建log目录,用来存放kafka的日志文件 3.修改配置文件 cd config vi server.properti...
分类: 其他 发布时间: 09-25 23:36 阅读次数: 0

Kafka常用命令操作

1.创建topic(主题) bin/kafka-topics.sh --zookeeper cdh0:2181 --create --replication-factor 3 --partitions 3 --topic first 说明:    --topic:定义topic名 --replication-factor:  定义副本数 --partitions:  定义分区数 2....
分类: 其他 发布时间: 09-25 23:36 阅读次数: 0

Kafka生产过程

1.写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序 写磁盘效率比随机写内存要高,保障kafka吞吐率) 2.分区(Partition) Kafka集群有多个消息代理服务器(broker-server)组成,发布到Kafka集群的每条消息都有一个类别,用主题(topic)来表示。通常...
分类: 其他 发布时间: 09-25 23:36 阅读次数: 0

Kafka中Broker保存消息的方式

1.存储方式 物理上把topic分成一个或多个patition(对应 server.properties 中的num.partitions=3配置),每个patition物理上对应一个文件 (该文件夹存储该patition的所有消息和索引文件) 2.存储策略 无论消息是否被消费,kafka都会保留所有消息。有两种策略可以删除旧数据: 1)基于时间:log.retention.hours=...
分类: 其他 发布时间: 09-25 23:35 阅读次数: 0

Kafka消费过程

1.消费模型 消息的消费模型有两种:推送模型(push)和拉取模型(pull) 推送模型(push): 基于推送模型(push)的消息系统,由消息代理记录消费者的消费状态,消息代理在将消息推送到消费者后,标记这条消息为已消费,但这种方式无法很好地保证消息被处理,比如,消息代理把消息发送出去后,当消费进程挂掉或者由于网络原因没有收到这条消息时,就有可能造成消息丢失(因为消息代理已经把这条消息标...
分类: 其他 发布时间: 09-25 23:35 阅读次数: 0

Kafka生产者Java API

准备工作: maven工程,zookeeper集群 1.开启Kafka集群,这里可以参考我之前的文章,里面有详细的教程 2.Java API编程 maven的pom.xml文件 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artif...
分类: 其他 发布时间: 09-25 23:35 阅读次数: 0

Kafka中自定义分区Java API

自定义分区API只是在Producer API的基础上加入了一些内容 这里直接展示出代码 ProducerPartition.java package cn.ysjh; import java.util.Properties; import org.apache.kafka.clients.producer.Callback; import org.apache.kafka.clien...
分类: 其他 发布时间: 09-25 23:34 阅读次数: 0

pandas read txt

https://blog.csdn.net/u011077672/article/details/50960580?utm_source=cop
分类: 编程语言 发布时间: 09-25 23:34 阅读次数: 0