Flink基于Kafka-Connector 数据流容错回放机制

转载自:https://blog.csdn.net/shenshouniu/article/details/84558874
欢迎加入大数据学习群:
**Flink学习视频:**http://edu.51cto.com/sd/88e07
在这里插入图片描述

1 Kafka-connector 再次亲密牵手Flink

  • Kafka中的partition机制和Flink的并行度机制深度结合,实现数据恢复。
  • Kafka可以作为Flink的source和sink,牛在这里。
  • 任务失败,通过设置kafka的offset来恢复应用

2 回顾Spark Streaming针对kafka使用技术

    // 设置检查点目录
    ssc.checkpoint("./streaming_checkpoint")
// 获取Kafka配置(通过配置文件读取,ConfigurationManager自定义方法)
val broker_list = ConfigurationManager.config.getString("kafka.broker.list")  
val topics = ConfigurationManager.config.getString("kafka.topics")

// kafka消费者配置
val kafkaParam = Map(
  "bootstrap.servers" -> broker_list,//用于初始化链接到集群的地址
  "key.deserializer" -> classOf[StringDeserializer],
  "value.deserializer" -> classOf[StringDeserializer],
  //用于标识这个消费者属于哪个消费团体
  "group.id" -> "commerce-consumer-group",
  //如果没有初始化偏移量或者当前的偏移量不存在任何服务器上,可以使用这个配置属性
  //可以使用这个配置,latest自动重置偏移量为最新的偏移量
  "auto.offset.reset" -> "latest",
  //如果是true,则这个消费者的偏移量会在后台自动提交
  "enable.auto.commit" -> (false: java.lang.Boolean)
)

// 创建DStream,返回接收到的输入数据
// LocationStrategies:根据给定的主题和集群地址创建consumer
// LocationStrategies.PreferConsistent:持续的在所有Executor之间分配分区
// ConsumerStrategies:选择如何在Driver和Executor上创建和配置Kafka Consumer
// ConsumerStrategies.Subscribe:订阅一系列主题
val adRealTimeLogDStream=KafkaUtils.createDirectStream[String,String](ssc,
  LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](Array(topics),kafkaParam))

3.1 理论时间

  • setStartFromGroupOffsets()【默认消费策略】

    默认读取上次保存的offset信息
    如果是应用第一次启动,读取不到上次的offset信息,则会根据这个参数auto.offset.reset的值来进行消费数据

  • setStartFromEarliest()
    从最早的数据开始进行消费,忽略存储的offset信息

  • setStartFromLatest()
    从最新的数据进行消费,忽略存储的offset信息

  • setStartFromSpecificOffsets(Map<KafkaTopicPartition, Long>)

  • 当checkpoint机制开启的时候,KafkaConsumer会定期把kafka的offset信息还有其他operator的状态信息一块保存起来。当job失败重启的时候,Flink会从最近一次的checkpoint中进行恢复数据,重新消费kafka中的数据。

  • 为了能够使用支持容错的kafka Consumer,需要开启checkpoint
    env.enableCheckpointing(5000); // 每5s checkpoint一次

  • Kafka Consumers Offset 自动提交有以下两种方法来设置,可以根据job是否开启checkpoint来区分:

    (1) Checkpoint关闭时: 可以通过下面两个参数配置

    enable.auto.commit

    auto.commit.interval.ms

    (2) Checkpoint开启时:当执行checkpoint的时候才会保存offset,这样保证了kafka的offset和checkpoint的状态偏移量保持一致。
    可以通过这个参数设置

    setCommitOffsetsOnCheckpoints(boolean)

    这个参数默认就是true。表示在checkpoint的时候提交offset, 此时,kafka中的自动提交机制就会被忽略

3.2 案例实战

 依赖引入:
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-statebackend-rocksdb_2.11</artifactId>
        <version>1.6.1</version>
    </dependency>
&lt;dependency&gt;
    &lt;groupId&gt;org.apache.flink&lt;/groupId&gt;
    &lt;artifactId&gt;flink-connector-kafka-0.11_2.11&lt;/artifactId&gt;
    &lt;version&gt;1.6.1&lt;/version&gt;
&lt;/dependency&gt;

&lt;dependency&gt;
    &lt;groupId&gt;org.apache.kafka&lt;/groupId&gt;
    &lt;artifactId&gt;kafka-clients&lt;/artifactId&gt;
    &lt;version&gt;0.11.0.3&lt;/version&gt;
&lt;/dependency&gt;

案例实战:
public class StreamingKafkaSource {

public static void main(String[] args) throws Exception {
    //获取Flink的运行环境
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

    //checkpoint配置
    env.enableCheckpointing(5000);
    env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
    env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
    env.getCheckpointConfig().setCheckpointTimeout(60000);
    env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
    env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

    //设置statebackend

    //env.setStateBackend(new RocksDBStateBackend("hdfs://hadoop100:9000/flink/checkpoints",true));


    String topic = "kafkaConsumer";
    Properties prop = new Properties();
    prop.setProperty("bootstrap.servers","SparkMaster:9092");
    prop.setProperty("group.id","kafkaConsumerGroup");

    FlinkKafkaConsumer011&lt;String&gt; myConsumer = new FlinkKafkaConsumer011&lt;&gt;(topic, new SimpleStringSchema(), prop);

    myConsumer.setStartFromGroupOffsets();//默认消费策略

    DataStreamSource&lt;String&gt; text = env.addSource(myConsumer);

    text.print().setParallelism(1);

    env.execute("StreamingFromCollection");
}

}

4 再论 Flink Kafka Producer

4.1 理论时间

  • Kafka Producer的容错-Kafka 0.9 and 0.10

  • 如果Flink开启了checkpoint,针对FlinkKafkaProducer09和FlinkKafkaProducer010 可以提供 at-least-once的语义,还需要配置下面两个参数:

    setLogFailuresOnly(false)

    setFlushOnCheckpoint(true)

  • 注意:建议修改kafka 生产者的重试次数retries【这个参数的值默认是0】

  • Kafka Producer的容错-Kafka 0.11,如果Flink开启了checkpoint,针对FlinkKafkaProducer011 就可以提供 exactly-once的语义,但是需要选择具体的语义

    Semantic.NONE

    Semantic.AT_LEAST_ONCE【默认】

    Semantic.EXACTLY_ONCE

4.2 KafkaSink案例实战

 public class StreamingKafkaSink {
    public static void main(String[] args) throws Exception {
    //获取Flink的运行环境
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
//checkpoint配置
env.enableCheckpointing(5000);
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
env.getCheckpointConfig().setCheckpointTimeout(60000);
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

//设置statebackend

//env.setStateBackend(new RocksDBStateBackend("hdfs://SparkMaster:9000/flink/checkpoints",true));


DataStreamSource&lt;String&gt; text = env.socketTextStream("SparkMaster", 9001, "\n");

String brokerList = "SparkMaster:9092";
String topic = "kafkaProducer";

Properties prop = new Properties();
prop.setProperty("bootstrap.servers",brokerList);

//第一种解决方案,设置FlinkKafkaProducer011里面的事务超时时间
//设置事务超时时间
//prop.setProperty("transaction.timeout.ms",60000*15+"");

//第二种解决方案,设置kafka的最大事务超时时间,主要是kafka的配置文件设置。

//FlinkKafkaProducer011&lt;String&gt; myProducer = new FlinkKafkaProducer011&lt;&gt;(brokerList, topic, new SimpleStringSchema());

//使用仅一次语义的kafkaProducer
FlinkKafkaProducer011&lt;String&gt; myProducer = new FlinkKafkaProducer011&lt;&gt;(topic, new KeyedSerializationSchemaWrapper&lt;String&gt;(new SimpleStringSchema()), prop, FlinkKafkaProducer011.Semantic.EXACTLY_ONCE);
text.addSink(myProducer);


env.execute("StreamingFromCollection");

}
}

猜你喜欢

转载自blog.csdn.net/u013411339/article/details/86586062