Flume入门三_采集日志文件到HDFS - 代码天地

Flume入门三_采集日志文件到HDFS

编程语言 2018-09-13 15:04:17 阅读次数: 0

1. 配置文件如下：

[hadoop@langzi01 conf]$ cat tail-hdfs.conf

内容如下：

#Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

#describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/hadoop/log/test.log
a1.sources.r1.channels = c1

#describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.rollInterval = 3
a1.sinks.k1.rollSize = 200
a1.sinks.k1.rollCount = 10
a1.sinks.k1.batchSize = 5
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream

#Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity= 100

#bind the source and sink to thw channel
a1.sourcesr1.channels = c1
a1.sinks.k1.channel = c1

2. 创建/home/hadoop/log/test.log

[hadoop@langzi01 log]$ touch test.log

#向文件里面追加数据，1s追加一次
[hadoop@langzi01 log]$ while true
> do
> echo aaaaaaaaaaaaaa >> test.log
> sleep 1
> done

3. 启动flume（保证hdfs已经处于工作状态）

[hadoop@langzi01 conf]$ ../bin/flume-ng agent --conf conf --conf-file tail-hdfs.conf --name a1

即可。

4. 查看hdfs的文件系统

这里写图片描述

猜你喜欢

转载自blog.csdn.net/guo20082200/article/details/82589574

Flume入门三_采集日志文件到HDFS

Flume采集Nginx日志到HDFS

Flume采集目录及文件到HDFS案例

flume采集文件到HDFS+Nginx

用flume 采集log4j 日志到hdfs

flume采集方案nginx日志到hdfs上

Flume日志采集，avro采集，以及通过参数控制下沉到hdfs的文件大小，时间等控制

flume采集文件到HDFS（跟踪文件内容）

flume采集日志到hdfs遇到采集一会不采集

flume采集数据到hdfs，文件内容出现乱码

Flume实战案例（Flume接受telent数据，采集目录到HDFS、采集文件到HDFS、两个agent级联）

大数据-数据仓库-数据采集(一)：日志数据采集【日志文件--(Flume)＞--＞Kafka--(Flume)--＞HDFS】

Flume + kafka + HDFS构建日志采集系统

flume采集nginx日志文件数据到Kafka

采集文件到HDFS

Flume采集处理日志文件

flume agent链接采集到hdfs

用Nginx采集日志通过flume将日志文件保存到HDFS上

Flume实战采集文件内容存入HDFS

flume实践（二）：TAILDIR多文件采集到对应HDFS文件

flume 安装配置一（采集目录中的新文件到HDFS）

通过flume将日志下沉到hdfs

Flume实时读hive日志到HDFS

电商数仓-(集群规划,消费Flume配置,Flume内存优化,Flume组件,日志消费Flume启动停止脚本,采集通道启动/停止脚本,Flume消费Kafka到HDFS上-HDFS上没有)

大数据实时日志收集框架Flume案例之抽取日志文件到HDFS

模拟使用Flume监听日志变化，并且把增量的日志文件写入到hdfs中

Log4j+Flume+HDFS采集日志

flume采集多个文件夹日志

Flume实战三，将A服务器日志实时采集到B服务器中

Flume案例之采集特定目录的数据到HDFS

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)