数据离线分析：kafka+flume+hdfs - 代码天地

数据离线分析：kafka+flume+hdfs

其他 2018-12-17 02:19:59 阅读次数: 0

数据采集到kafka中之后，既可以对数据进行离线分析，又可以对数据进行实时分析，有些数据适合进行离线分析，比如用户画像。离线分析，需要将数据从kafka中存到hdfs中，这里使用flume，将数据从kafka中导入到hdfs中。flume的启动配置文件（kafkaToHdfs.conf）：

# ------------------- 定义数据流----------------------
# source的名字
a1.sources = s1
a1.channels = c1
a1.sinks = k1
#-------- kafkaSource相关配置-----------------
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.s1.channels = c1
a1.sources.s1.batchSize = 5000
a1.sources.s1.kafka.bootstrap.servers = mini02:9092,mini03:9092,mini04:9092
a1.sources.s1.kafka.topics = gsNgixTopic01
a1.sources.s1.kafka.consumer.group.id = flumetest02
#---------hdfsSink 相关配置------------------
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://mini02:9000/wc/%{topic}/%y-%m-%d
a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.rollInterval = 5
a1.sinks.k1.hdfs.threadsPoolSize = 30
a1.sinks.k1.hdfs.fileType=DataStream
a1.sinks.k1.hdfs.writeFormat=Text
#------- memoryChannel相关配置-------------------------
a1.channels.c1.type = memory
a1.channels.c1.capacity = 100000
a1.channels.c1.transactionCapacity = 10000

#注意：a1.sources.s1.kafka.consumer.group.id的配置

//启动flume
./bin/flume-ng agent -n a1 -c conf/ -f conf/tempConf/kafkaToHdfs.conf

猜你喜欢

转载自blog.csdn.net/hefrankeleyn/article/details/79954125

数据离线分析：kafka+flume+hdfs

kafka+flume+hdfs的flume配置文件

使用Flume消费Kafka数据到HDFS

flume接收kafka数据存储到hdfs

Flume同时输出数据到HDFS和kafka

Flume将 kafka 中的数据转存到 HDFS 中

kafka产生的数据通过Flume存到HDFS中

实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming

使用Flume往kafka和hdfs里同时写数据

flume+kafka+hdfs收集用户行为数据

Flume实现Kafka数据持久化存储到HDFS

flume+kafka+sparkstreaming+hdfs

flume连接hdfs和kafka

大数据-数据仓库-数据采集(一)：日志数据采集【日志文件--(Flume)＞--＞Kafka--(Flume)--＞HDFS】

flume 读取kafka 数据

flume传输数据给kafka

数据采集flume kafka

Flume + kafka + HDFS构建日志采集系统

Flume+HDFS+Kafka+Hive实例搭建

Flume 1.8.0读取Kafka写HDFS

CDH组件的安装| HDFS的配置 | Flume| Kafka|

flume下沉hdfs、hbase、avro、kafka示例

Kafka+zookeeper+flume+spark实时数据分析

Flume+Kafka+Spark Streaming 大数据分析处理

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

如何使用Maxwell和flume,kafka 把MySQL数据实时同步到HDFs？

利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka

基于HDP使用Flume实时采集MySQL中数据传到Kafka+HDFS或Hive

记录一次Flume消费kafka数据到HDFS踩到到的坑

业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)