Flink1.10入门:Watermark机制及实例讲解

一、Watermark简介        Watermark是一种衡量Event Time进展的机制,它是数据本身的一个隐藏属性。通常基于Event Time的数据,自身都包含一个timestamp.watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。简单来说,我们可以把他理解为一个水位线,这个Watermarks在不断的变化,一旦Wa
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

jvm统计信息监控工具

一、 jstat是什么jstat是JDK自带的一个轻量级小工具。全称“Java Virtual Machine statistics monitoring tool”,它位于java的bin目录下,主要利用JVM内建的指令对Java应用程序的资源和性能进行实时的命令行的监控,包括了对Heap size和垃圾回收状况的监控。jstat 是用于见识虚拟机各种运行状态信息的命令行工具。它可以显示本地或者
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

HBase2.x精通:结合源码讲解Region的三种Spilt策略

一、概述       最近在工作中接触到split,于是查看了这块的源代码,先看到了split的策略,今天就说说这个吧; 这里我是基于HDP版本的Hadoop集群,对应的HBase的版本为2.2.1,后续的分析都是基于该版本的源码做的分析, HBase-2.x支持7种Region自动拆分的策略,继承关系如下图所示:二、针对这几种默认拆分策略做单独的说明。1.RegionSplitPolicy   
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink1.10入门:TableAPI自定义UDF实现WordCount

一、概述    本篇文章作为Flink的TableAPI&SQL的入门案例,在TableAPI自定义UDF函数,继承了TableFunction()函数来实现WordCount单词统计,这里只做了简单的实现,让你对TableAPI&SQL有一个简单的认识。二、代码实战1.pom依赖,这里只贴了新引用的依赖:<dependency>  <groupId>org
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink1.10入门:自定义Redis的Sink函数

一、概述    这篇文章需要完成的是将实时数据写到Redis,我这里自定义了Ridis对应的Sink函数,为了方便直接从socket端接收数据,operator处理后,直接写入redis中,由于比较简单,详细内容直接看实例代码即可。软件版本:    flink1.10    redis5.0.5二、代码实战1.添加redis对应pom依赖 <dependency>    <gro
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink入门:StreamingFileSink相关特性及代码实战

一、概述    Flink流式计算的核心概念,就是将数据从Source输入流一个个传递给Operator进行链式处理,最后交给Sink输出流的过程。本篇文章主要讲解Sink端比较强大一个功能类StreamingFileSink,我们基于最新的Flink1.10.0版本进行讲解,之前版本可能使用BucketingSink,但是BucketingSink从Flink 1.9开始已经被废弃,并会在后续的
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink实战:自定义KafkaDeserializationSchema(Java/Scala)

kafka中的数据通常是键值对的,所以我们这里自定义反序列化类从kafka中消费键值对的消息,为方便大家学习,这里我实现了Java/Scala两个版本,由于比较简单这里直接上代码:一、Scala代码:1.自定义反序列化类:package comhadoop.ljs.flink010.kafkaimport org.apache.flink.api.common.typeinfo.{TypeHint
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Kylin2.6.5入门:基于HDP3.1.4安装部署问题记录

一、概述    Kylin依赖Hadoop集群来处理大型数据集。您需要准备一个Hadoop集群,其中包含HDFS、YARN、MapReduce、Hive、HBase、Zookeeper等服务,以便Kylin运行。我这里下载的kylin版本是2.6.5,基于HDP3.1.4进行安装的,各个组件的版本如下:HDFS                    3.1.1.3.1Hive3.1.0HBase2
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

HBase1.x运维:Multiple regions have the same endkey报错

软件版本:    hadoop2.7.3    hbase1.2.5    zookeeper3.4.61.问题描述:   生产HBase集群由于批量导入20亿数据之后,集群上产生了很多的region,各个Regionserver上的region负载已经达到了1200,很多数据表的region已经不在线,在手动执行major compact之前没有用hbase hbck命令进行集群状态检查和修复,
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

《商君书》白话解读 26章 定分

《商君书》白话解读26章定分无产阶级的救兵自动化运维本篇讲了立法之意和行法之方,强调了普法宣传的重要性,并对如何保障法律如何传达到基层不被篡改,做了详细的论述,商鞅是一个务实的政治家。公问于公孙鞅曰:“法令以当时立之者,明旦欲使天下之吏民皆明知而用之,如一而无私,奈何”?白话解读:秦孝公问公孙鞅说:“今天制定的法令,明天清晨就想让全国的官吏和百姓都明确了解并奉行,法令上下一致而没有奸私,应怎么办?
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink1.10实战:自定义聚合函数 AggregateFunction

一、概述    Flink 的AggregateFunction是一个基于中间计算结果状态进行增量计算的函数。由于是迭代计算方式,所以,在窗口处理过程中,不用缓存整个窗口的数据,所以效率执行比较高。二、AggregateFunction接口类    AggregateFunction 比 ReduceFunction 更加的通用,它有三个参数:输入类型(IN)、累加器类型(ACC)和输出类型(OU
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

udev 高效、动态地管理 Linux 设备文件

概述:Linux 用户常常会很难鉴别同一类型的设备名,比如 eth0, eth1, sda, sdb 等等。通过观察这些设备的内核设备名称,用户通常能知道这些是什么类型的设备,但是不知道哪一个设备是他们想要的。例如,在一个充斥着本地磁盘和光纤磁盘的设备名清单 (/dev/sd*) 中,用户无法找到一个序列号为“35000c50000a7ef67”的磁盘。在这种情况下,udev 就能动态地在 /de
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink1.10入门:Checkpoint重启策略及代码演示

一、概述     当任务失败时,Flink需要重新启动失败的任务和其他受影响的任务,将作业恢复到正常状态;重新启动策略和故障转移策略用于控制任务的重新启动。重新启动策略决定是否以及何时可以重新启动失败/受影响的任务。故障转移策略决定应该重新启动哪些任务以恢复作业。二、Restart Strategies 重启策略    在没有定义特定作业的重启策略时,总是使用默认的重启策略。如果提交的作业带有重启
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink1.10入门:Checkpoint机制介绍

一、Checkpoint概念    上篇文章我们已经讲了Flink的状态管理,对于这些状态如何保存,我们一起学习一下Flink的Checkpoint机制。Flink本身为了保证其高可用的特性,以及保证作用的Exactly Once的快速恢复,进而提供了一套强大的Checkpoint机制。    Checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

Flink1.10入门:状态管理介绍

、概述    我们先来看Flink官方文档的第一句话:    Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all co
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

hdparm

“ hdparm ”(即硬盘参数)是Linux的命令行程序之一,用于处理磁盘设备和硬盘。借助此命令,您可以获得有关硬盘,更改写入间隔,声学管理和DMA设置的统计信息。它还可以设置与驱动器高速缓存,睡眠模式,电源管理,声学管理和DMA设置相关的参数。安装hdparm[root@instance-z78bdmwa ~]# yum install hdparm -y L句法:hdparm [选项] [设
分类: 编程语言 发布时间: 03-10 09:34 阅读次数: 0

《商君书》白话解读 07章 开塞

《商君书》白话解读07章开塞无产阶级的救兵自动化运维本篇说明了不同时代人类的社会特征、经济基础不同,人们崇尚东西和价值观也不同。不同时代,征服天下的方式方法也不同:上世亲亲而爱私,中世上贤而说仁,下世贵贵而尊官,今世强国事兼并,弱国务力守。在连年战争的战国时代,诸侯首要的是生存,生存就必须增强国力,实行“以力服人”的“霸道”,而不能实行儒家主张的“王道”。所以商鞅提出了“不法古,不循今”的主张,即
分类: 编程语言 发布时间: 03-10 09:24 阅读次数: 0

docker单机存储

序言        docker需要存储的时候,将相关的数据存储在什么位置呢?镜像存储在哪里。数据又存储在哪里。        容器共享数据的时候怎么来共享?容器和主机共享,容器和容器怎么共享数据。Despacito (Version Pop)Luis Fonsi - Mega Hits Sommer 2017docker持久化管理之bind    docker将需要存储的数据存储在docker的
分类: 编程语言 发布时间: 03-10 09:24 阅读次数: 0

SNMP服务

一、安装SNMP1.1、下载Net-SNMP的源代码安装环境:yum install -y net-snmp-perl net-snmp-utils perl-ExtUtils-CBuilder perl-ExtUtils-MakeMaker选择一个SNMP版本,比如5.7.1,下载地址如下:http://sourceforge.net/projects/net-snmp/files/net-sn
分类: 编程语言 发布时间: 03-10 09:24 阅读次数: 0

如何增加Linux中的打开文件数限制

在Linux中,您可以更改打开文件的最大数量。您可以使用ulimit命令修改此数字。它授予您控制shell启动的资源或由其启动的进程的能力。另请参阅: 按用户级别设置Linux运行进程限制在这个简短的教程中,我们将向您展示如何检查打开文件和文件描述的当前限制,但为此,您需要具有对系统的root访问权限。首先,让我们看看我们如何找到Linux系统上打开的文件描述符的最大数量。查找Linux打开文件限
分类: 编程语言 发布时间: 03-10 09:24 阅读次数: 0