代码天地

Sqoop常用命令及参数一

常用命令列举 import 将数据导入到集群 export 将集群数据导出 codegen 获取数据库中某张表数据生成 Java 并打包Jar create-hive-table 创建 Hive 表 eval 查看 SQL 执行结果 import-all-tables 导入某个数据库下所有表到 HDFS 中 job 用来生成一个 ...

分类: 其他发布时间: 09-25 23:39 阅读次数: 0

Sqoop常用命令及参数二

4.create-hive-table 生成与关系数据库表结构对应的 hive 表结构 --hive-home &lt;dir&gt; Hive 的安装目录,可以通过该参数覆盖掉默认的 Hive 目录 --hive-overwrite 覆盖掉在 Hive 表中已经存在的数据 --create-hive-table 默认是 false,如果目标表已经存在了,那么...

分类: 其他发布时间: 09-25 23:39 阅读次数: 0

Flume初识

Flume官方文档： http://flume.apache.org/FlumeUserGuide.html 1.Flume简介 1)Flume 提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务 2)Flume 只能在 Unix 环境下运行 3)Flume 基于流式架构,容错性强,也很灵活简单 4)Flume、Kafka 用来实时进行数...

分类: 其他发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例一

1.安装部署Flume 我这里Flume的版本是CDH5.3.6的，下载地址 http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.5.0-cdh5.3.6.tar.gz 上传解压之后修改配置文件 mv flume-env.sh.template flume-env.sh vi flume-env.sh 将export JAVA_HO...

分类: 其他发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例二

之前的案例一只算是一个小demo，在实际生产环境中是不会用Flume来做这种需求的实时监控hive日志，并上传到HDFS中 1)拷贝Hadoop相关jar包到Flume的lib目录下（将监控日志实时上传到HDFS中，相当于持有Hadoop的API，才能操作Hadoop） hadoop/common/lib/hadoop-auth-2.5.0-cdh5.3.6.jar hadoop/com...

分类: 其他发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例三

实时读取目录文件到HDFS 使用flume监听整个目录的文件 1)创建Job的job_flume2.conf文件 a3.sources = r3 a3.sinks = k3 a3.channels = c3 # Describe/configure the source a3.sources.r3.type = spooldir a3.sources.r3.spoolDir = /opt/...

分类: 其他发布时间: 09-25 23:38 阅读次数: 0

Flume使用案例四

Flume与Flume之间传递数据：单Flume，多channel，sink 使用 flume-1 监控文件变动，flume-1 将变动内容传递给 flume-2，flume-2 负责存储到HDFS，同时 flume-1 将变动内容传递给 flume-3，flume-3 负责输出到本地文件目录 1)创建 flume-1.conf，用于监控 hive.log 文件的变动,同时产生两个 cha...

分类: 其他发布时间: 09-25 23:37 阅读次数: 0

Flume使用案例五

Flume与Flume之间数据传递，多Flume汇总数据到单Flume flume-1 监控文件 hive.log，flume-2 监控某一个端口的数据流，flume-1 与 flume-2 将数据发送给 flume-3，flume3 将最终数据写入到 HDFS 1)创建 flume-1.conf，用于监控 hive.log 文件，同时 sink 数据到 flume-3 # Name th...

分类: 其他发布时间: 09-25 23:37 阅读次数: 0

Kafka消息队列内部实现原理

1.实现原理 1).点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）主动拉取指定时轮寻的去请求Kafka的端口点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此 2).发布/订阅模式（一对多，数据生产后，推送给所有订阅者）发布...

分类: 其他发布时间: 09-25 23:37 阅读次数: 0

Kafka架构介绍

1).Producer ：消息生产者，就是向kafka broker发消息的客户端。 2).Consumer ：消息消费者，向kafka broker取消息的客户端 3).Topic ：可以理解为一个队列。 4).Consumer Group （CG）：这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段。一个topic...

分类: 其他发布时间: 09-25 23:36 阅读次数: 0

Acronis True Image 2019 v23.3.1.14110

分类: 企业开发发布时间: 09-25 23:36 阅读次数: 0

ES中，有一类参数是可以动态调整的，比如副本数量：number_of_replicas。在插件开发中，如何添加自己的自定义参数呢？在插件的入口，添加onModule(ClusterModulemodule)即可。publicclassShgyPluginextendsPlugin{@OverridepublicStringname(){return"shgy-plugin";}@Overridep

分类: 企业开发发布时间: 09-25 23:36 阅读次数: 0

Kafka分布式集群部署

Kafka下载地址： http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.0.0/kafka_2.12-2.0.0.tgz 1.上传解压下载好Kafka的压缩包之后上传到机器上，并解压 2.在Kafka目录下创建log目录，用来存放kafka的日志文件 3.修改配置文件 cd config vi server.properti...

分类: 其他发布时间: 09-25 23:36 阅读次数: 0

Kafka常用命令操作

1.创建topic(主题) bin/kafka-topics.sh --zookeeper cdh0:2181 --create --replication-factor 3 --partitions 3 --topic first 说明： --topic：定义topic名 --replication-factor：定义副本数 --partitions：定义分区数 2....

分类: 其他发布时间: 09-25 23:36 阅读次数: 0

Kafka生产过程

1.写入方式 producer采用推（push）模式将消息发布到broker，每条消息都被追加（append）到分区（patition）中，属于顺序写磁盘（顺序写磁盘效率比随机写内存要高，保障kafka吞吐率） 2.分区(Partition) Kafka集群有多个消息代理服务器（broker-server）组成，发布到Kafka集群的每条消息都有一个类别，用主题（topic）来表示。通常...

分类: 其他发布时间: 09-25 23:36 阅读次数: 0

Kafka中Broker保存消息的方式

1.存储方式物理上把topic分成一个或多个patition(对应 server.properties 中的num.partitions=3配置)，每个patition物理上对应一个文件 (该文件夹存储该patition的所有消息和索引文件) 2.存储策略无论消息是否被消费，kafka都会保留所有消息。有两种策略可以删除旧数据： 1)基于时间：log.retention.hours=...

分类: 其他发布时间: 09-25 23:35 阅读次数: 0

Kafka消费过程

1.消费模型消息的消费模型有两种：推送模型(push)和拉取模型(pull) 推送模型(push)：基于推送模型（push）的消息系统，由消息代理记录消费者的消费状态，消息代理在将消息推送到消费者后，标记这条消息为已消费，但这种方式无法很好地保证消息被处理，比如，消息代理把消息发送出去后，当消费进程挂掉或者由于网络原因没有收到这条消息时，就有可能造成消息丢失（因为消息代理已经把这条消息标...

分类: 其他发布时间: 09-25 23:35 阅读次数: 0

Kafka生产者Java API

准备工作： maven工程，zookeeper集群 1.开启Kafka集群，这里可以参考我之前的文章，里面有详细的教程 2.Java API编程 maven的pom.xml文件 &lt;dependencies&gt; &lt;dependency&gt; &lt;groupId&gt;org.apache.kafka&lt;/groupId&gt; &lt;artif...

分类: 其他发布时间: 09-25 23:35 阅读次数: 0

Kafka中自定义分区Java API

自定义分区API只是在Producer API的基础上加入了一些内容这里直接展示出代码 ProducerPartition.java package cn.ysjh; import java.util.Properties; import org.apache.kafka.clients.producer.Callback; import org.apache.kafka.clien...

分类: 其他发布时间: 09-25 23:34 阅读次数: 0

pandas read txt

https://blog.csdn.net/u011077672/article/details/50960580?utm_source=cop

分类: 编程语言发布时间: 09-25 23:34 阅读次数: 0

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

Sqoop常用命令及参数一

Sqoop常用命令及参数二

Flume初识

Flume使用案例一

Flume使用案例二

Flume使用案例三

Flume使用案例四

Flume使用案例五

Kafka消息队列内部实现原理

Kafka架构介绍

Acronis True Image 2019 v23.3.1.14110

ES插件开发之--如何添加自己的动态设置项

Kafka分布式集群部署

Kafka常用命令操作

Kafka生产过程

Kafka中Broker保存消息的方式

Kafka消费过程

Kafka生产者Java API

Kafka中自定义分区Java API

pandas read txt