カフカへの水路収集シンクは、HDFSにアップロード

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/Romantic_sir/article/details/102573491

全体的なアイデア:

        偽のデータを作成するために、ループのスクリプトを書く、これらのデータは、カフカに水路を通じてシンクします、その後、Javaのコードを、一時的に次のローカルの一時パスにデータを格納し、その後にHDFSにデータをアップロードする時限タイマーを設定しますコードは以下の通りであります:

1、消費者:ローカルステージングへのデータパスの責任

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Collections;
import java.util.Properties;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

public class ConsumerDemo {
    private static KafkaConsumer<String, String> consumer;
    private static Properties props;
    //static静态代码块,在main之前先执行
    static {
        props = new Properties();
        //消费者kafka地址
        props.put("bootstrap.servers", "hdp-2:9092");
            //key反序列化
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        //组
        props.put("group.id", "yangk");
    }

    /**
     * 从kafka中获取数据(SpringBoot也集成了kafka)
     */
    private static void ConsumerMessage() {
        //允许自动提交位移
        props.put("enable.auto.commit", true);
        consumer = new KafkaConsumer<String, String>(props);
        consumer.subscribe(Collections.singleton("first_kafka"));

        //使用轮询拉取数据--消费完成之后会根据设置时长来清除消息,被消费过的消息,如果想再次被消费,可以根据偏移量(offset)来获取
        try {
            File file = new File("F:/xiu.txt");
            
        //建文件输出流
            FileOutputStream fos = new FileOutputStream(file);
            while (true) {
                //从kafka中读到了数据放在records中
                ConsumerRecords<String, String> records = consumer.poll(100);
                for (ConsumerRecord<String, String> r : records) {

                    String a = r.topic()+ r.offset()+ r.key()+ r.value() + "\r\n";
                    //将数据写到F:/xiu.txt
                    fos.write(a.getBytes());

                    System.out.printf("topic = %s, offset = %s, key = %s, value = %s", r.topic(), r.offset(),
                            r.key(), r.value() + "\n");

                }
            }
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            consumer.close();
        }
    }

    public static void main(String[] args) {
        //调用接收消息的方法
        ConsumerMessage();

    }
}

2、HDFSにローカル一時パスからアップロード

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.net.URI;
import java.net.URISyntaxException;
import java.util.TimerTask;

public class UploadData extends TimerTask{

    public void run() {


        URI uri = null;
        try {
            uri = new URI("hdfs://hdp-1:9000");


        Configuration conf = new Configuration();
        conf.set("dfs.replication", "2");//name,value 副本个数
        conf.set("dfs.blocksize", "64m");//块的大小
        String user = "root";

        FileSystem fs = FileSystem.get(uri,conf,user);
        Path src = new Path("F:/xiu.txt");//本地临时路径文件
        Path dst = new Path("/hello_kafka.txt");//上传到hdfs的目标文件
        fs.copyFromLocalFile(src,dst);
        } catch (Exception e) {
            e.printStackTrace();
        }

    }
}

3、タイマーを設定

import java.util.Timer;

public class TimerDemo {

    public static void main(String[] args) {
        Timer timer = new Timer();

        timer.schedule(new UploadData(),0,4*1000);//测试为了方便4s钟重新加载一次UploalData类

        
    }
}

4、50070回4Sは、ページを更新し、ファイルの変更が表示されますが、データ収集スクリプト1Sは、誤ったデータの多くは、またはほとんど効果を生成するように設定されることを提供しました

おすすめ

転載: blog.csdn.net/Romantic_sir/article/details/102573491