flume-configuration

a1.sources=r1
a1.sinks=k1
a1.channels=c1

a1.sources.r1.type=spooldir
a1.sources.r1.spoolDir=/home/bigdata/flume/flumedata
a1.sources.r1.fileHeader = false
a1.sources.r1.deserializer.maxLineLength=10240

a1.channels.c1.type=memory

a1.sinks.k1.type=hdfs
a1.sinks.k1.hdfs.path=/hadoopProject1711/%y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = beicai
a1.sinks.k1.hdfs.fileType=DataStream
#每个批次刷新到hdfs的events的数据
a1.sinks.k1.hdfs.batchSize =10
#如果设置为0,则表示不根据events数据来滚动文件
a1.sinks.k1.hdfs.rollCount=0
#当临时文件达到该大小的时候(单位为bytes)时,滚动成目标文件
a1.sinks.k1.hdfs.rollSize=52428800
#如果设置为0,则表示不根据时间来滚动文件
a1.sinks.k1.hdfs.rollInterval=60
#是否启用时间上的"舍弃"
a1.sinks.k1.hdfs.round = false
#5分钟后滚动为一个文件
a1.sinks.k1.hdfs.roundValue =5
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.useLocalTimeStamp=true
a1.sinks.k1.hdfs.minBlockReplicas=1

a1.sources.r1.channels =c1
a1.sinks.k1.channel=c1

执行:./bin/flume-ng agent --conf conf --conf-file ./flumeconfigure/flumetohdfs.conf --name a1 -Dflume.root.logger=INFO,console
详解:https://blog.csdn.net/qq_39839745/article/details/85278066

  1. 传数据的时候,可以分为 按多长时间传,多少个event传,信息容量传
  2. 每隔60s传一次,60s有很多条数据对应很多event,
  3. mv cp 都能移动数据,如果是数据在一边采集一遍的移动的话,最好用mv命令,是一个原子性的操作,数据全部移动完毕,就算成功,但是cp是有数据就复制过去,如果采集程序已经启动了,有可能采集的不完整,甚至出现错误

猜你喜欢

转载自blog.csdn.net/qq_39839745/article/details/85316653