Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集 - 代码天地

Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集

其他 2019-02-20 21:01:02 阅读次数: 0

框架图（Agent1的avro source写错误了，应该是exec source）：

Flume配置文件：avro-memory-kafka.conf

avro-memory-kafka.sources = avro-source
avro-memory-kafka.sinks = kafka-sink
avro-memory-kafka.channels = memory-channel

avro-memory-kafka.sources.avro-source.type = avro
avro-memory-kafka.sources.avro-source.bind= hadoop1
avro-memory-kafka.sources.avro-source.port= 44444

avro-memory-kafka.sinks.kafka-sink.type = org.apache.flume.sink.kafka.KafkaSink
avro-memory-kafka.sinks.kafka-sink.brokerList = hadoop0:9092
avro-memory-kafka.sinks.kafka-sink.topic = shuaige
avro-memory-kafka.sinks.kafka-sink.batchSize = 5
avro-memory-kafka.sinks.kafka-sink.requiredAcks = 1

avro-memory-kafka.channels.memory-channel.type = memory

avro-memory-kafka.sources.avro-source.channels = memory-channel
avro-memory-kafka.sinks.kafka-sink.channel = memory-channel

运行B： flume-ng agent --name avro-memory-kafka --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/avro-memory-kafka.conf -Dflume.root.logger=INFO,console

运行A：flume-ng agent --name exec-memory-avro --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/exec-memory-avro.conf -Dflume.root.logger=INFO,console（和此博客需求三中机器A的配置相同）

问题：卡在这不动了（耗费了2天时间解决这个问题！）

2019-02-12 16:15:05,869 (conf-file-poller-0) [WARN - org.apache.flume.node.AbstractConfigurationProvider.getConfiguration(AbstractConfigurationProvider.java:133)] No configuration found for this host:agent
2019-02-12 16:15:05,881 (conf-file-poller-0) [INFO - org.apache.flume.node.Application.startAllComponents(Application.java:138)] Starting new configuration:{ sourceRunners:{} sinkRunners:{} channels:{} }

经检查发现是我agent的名字写错了。

首先运行B avro-memory-kafka，然后运行A exec-memory-avro ，再打开一个客户端C消费Kafka中的数据， ./kafka-console-consumer.sh --zookeeper localhost:2181 --topic shuaige

验证：在机器A中，/soft/flume1.6/data/data.log 中使用echo命令增加数据，观察客户端C是否会接收并在控制台打印出追加的数据。

猜你喜欢

转载自blog.csdn.net/qq_21583077/article/details/87544698

Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集

Spark Streaming实时流处理笔记（3）——日志采集Flume

Spark Streaming实时流处理笔记（6）—— Kafka 和 Flume的整合

基于Flume+Kafka+Spark Streaming打造实时流处理项目实战课程

Spark Streaming实时流处理项目5——Spark Streaming入门

Spark Streaming实时流处理项目实战

Spark Streaming实时流处理项目实战

Spark Streaming实时处理Kafka数据

Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统

Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

大数据求索(9): log4j + flume + kafka + spark streaming实时日志流处理实战

3、Spark Streaming实时流处理项目---实时流处理产生背景与概述

Kafka+zookeeper+flume+spark实时数据分析

kafka->spark->streaming->mysql（scala）实时数据处理案列

Spark Streaming实时流处理项目1——分布式日志收集框架Flume的学习

Spark Streaming实时流处理笔记（5）—— Kafka API 编程

整合Flume和kafka完成实时数据采集

Spark Streaming实时流处理项目2——分布式消息队列Kafka学习

Spark Streaming实时流处理项目实战笔记05

Spark Streaming实时流处理项目实战笔记

Spark Streaming实时流处理项目实战笔记一

Spark Streaming实时流处理项目4——实战环境搭建

【教程分享】Spark Streaming实时流处理项目实战

spark streaming 实时流处理视频

spark streaming 实时流处理实战视频

Flume、Kafka、Spark streaming整合

Spark Streaming实时流处理项目6——Spark Streaming实战1

Spark Streaming实时流处理项目7——Spark Streaming实战2

java实现kafka整合spark streaming完成wordCount,updateStateByKey完成实时状态更新

Spark Streaming整合Flume，Mysql(基于Flume的Pull模式)，实时保存数据到Mysql

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)