Storm平台监控方案[ 上 ]

企业开发 2018-05-10 02:47:54 阅读次数: 1

监控的初衷

社区版的storm除去storm UI可以提供一点信息外，实际上任务完全运行在一个黑盒子里，不仅不知道任务的运行情况，即使任务有问题时也无法及时通知用户来处理，事后排查问题又非常困难。为了解决这些问题，需要把任务运行的情况掌握起来。

监控的维度

任务维度监控

组件处理耗时，单位:毫秒
任务组件tps
worker处理耗时,单位:毫秒
worker tps
worker.capacity【(number executed * average execute latency) / measurement time】

worker维度监控

1分钟内parnew gc 平均耗时,单位:毫秒
1分钟内concurrentmarksweep gc 平均耗时单位:毫秒
1分钟内parnew gc次数
1分钟内concurrentmarksweep gc次数
老年代内存使用比率
gc吞吐,计算公式：(runTime - totalGCTime) / runTime
worker线程活跃数
worker日志文件个数
worker线程峰值
worker文件大小
worker运行时长，单位：天
worker进程使用的文件句柄数
worker进程使用的cpu
worker进程使用的swap
worker进程user使用的cpu
worker进程system使用的cpu
worker内组件TPS监控

自助定问题

jstack定时生成并提供下载
手动jmap堆信息并提供下载

管理员维度

集群tps
集群emit量
主机tps
主机emit量

灵活告警

针对用户的告警
邮件+短信

常见问题汇总

内存泄漏
线程泄漏
连接泄漏
任务并发设置不合理，worker不均衡
不合理的日志输出
spout阻塞导致ticktuple停止
不合理的slot数导致cpu都用来gc
内核问题导致进程夯住
网络连接随机端口导致worker端口被占
woker进程死锁
下游系统慢导致反压队列爆满而OOM

监控数据效果图

猜你喜欢

转载自woodding2008.iteye.com/blog/2326358

Storm平台监控方案[ 上 ]

Storm平台监控方案[ 下 ]

构建高大上的MySQL监控平台

视频监控业务上云方案解析

Storm整理(上)

DIY一个前端监控平台（上）

Prometheus + Granafa 构建高大上的MySQL监控平台

解决storm集群上的nimbus和supervisor结点无缘无故自动停止的方案

Android修炼系列（33），内存监控技术方案（上）

Jconsole上监控Tomcat

linux上对服务监控

jconsole 监控上tomcat

Prometheus监控服务-上

内存监控工具（上）

Ionic 跨平台开发之Safari上的调试方案

数据中台建设方案-基于大数据平台(上)

绘制优化方案(上)

storm ui上emit和transferred的区别

Linux上Storm集群环境的搭建

storm 在redhat上的安装配置

jprofiler监控linux上tomcat

linux上zabbix监控mysql

nagios监控window主机(上)

Zabbix 上Windows性能监控

Flutter 上的内存泄漏监控

监控平台实施方案

搭建一个通用监控告警平台，架构上需要有哪些设计

微信公众号平台返回上一页解决方案

CentOS 7上的性能监控工具

使用Netsil监控Kubernetes上的微服务

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)