flume sinks 到hbase 消费数据慢 - 代码天地

flume sinks 到hbase 消费数据慢

其他 2018-11-28 09:41:25 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/chenzhenguo123/article/details/84108036

1、情况：flume 消费数据到habse中。

source 和 channel 都正常，速度很快，唯独sinks 到hbase的时候速度特别慢。大概是一秒存入一条数据

top 查看flume cpu 飙升至99%

原的配置文件

a1.sources = r1
a1.sinks = k1
a1.channels = c1
 
# Describe/configure the source
a1.sources.r1.type =spooldir 
a1.sources.r1.spoolDir=/urldata/
# 通过以下配置指定消费完成后文件后缀
a1.sources.r1.fileSuffix = .COMPLETED  
a1.sources.r1.checkperiodic = 50

# Describe the sink
 #输入格式，DELIMITED和json
 
a1.sinks.k1.type = hbase
a1.sinks.k1.table = t_url
a1.sinks.k1.columnFamily = info
a1.sinks.k1.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer
##指定列名称，数据的第一列为ROW_KEY
a1.sinks.k1.serializer.colNames = rid,dir,username,sip,sport,dip,dport,bytes,starttime,action,url,descid,domain,type,subtype,words,line,platform,browser,grpids,referer,termtype
a1.sinks.k1.serializer.regex = (.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)\\|(.*)







a1.sinks.k1.channel = memoryChannel
 
# Use a channel which buffers events in memory

 #The maximum number of events stored in the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 100000
a1.channels.c1.transactionCapacity = 10000

#The maximum number of events the channel will take from a source or give to a sink per transaction
 
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
a1.sinks.k1.batchSize = 200

解决办法：

是由于匹配正则的表达式太复杂导致 flume在处理数据的时候特别慢。需要优化flume的正则表达式分隔符

a1.sinks.k1.serializer.regex = ([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)\\|([^\\|]*)

按照|分割符、分割正则表达式

后续测试数据正常

猜你喜欢

转载自blog.csdn.net/chenzhenguo123/article/details/84108036

flume sinks 到hbase 消费数据慢

大数据学习笔记49：Flume Sinks（Flume接收器）

通过kafka，flume消费自己生产的数据到hbase的准备

flume 多个source sinks channel 配置记录

使用flume将数据sink到HBase

Kafka通过Flume传输数据到HBase

flume整合数据到kafka，sparkStreaming消费数据，并存储到hbase和redis中

利用Flume 汇入数据到HBase：Flume-hbase-sink 使用方法详解

使用Flume消费Kafka数据到HDFS

flume将数据导入到hbase中

第4.1.3章 flume写入数据到hbase中

Flink_数据输出 Data Sinks

flume报错：Space for commit to queue couldn't be acquired. Sinks are likely not keeping up with sources

flume agents sources channels sinks .flu配置方式组合样例

Flume报 Space for commit to queue couldn't be acquired. Sinks are likely not keeping up with sources,...

三, Flume 进阶下-- Flume自定义拦截器, 自定义Sources, 自定义Sinks

Flume push数据到SparkStreaming

flume传数据到hdfs

flume篇2：flume把json数据写入hbase(flume-habse-sink)

Flume+hbase 日志数据采集与存储

spark streaming消费flume数据

通过 flume 上传数据到hive

使用flume将数据sink到kafka

Flume 传递数据到HDFS上

Flume抽取Oracle中的数据到Kafka

flume接收kafka数据存储到hdfs

Flume实时读取数据到MySQL

Flume采集文件数据到Kafka

flume到flume消息传递

记录一次Flume消费kafka数据到HDFS踩到到的坑

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)