OpenTSDB的故障排除

写在前面

如果使用OpenTSDB多的话,就会逐渐意识到它的不足,这个与其说是故障排除,也可以叫缺陷说明了,毕竟按上面的方法排除故障还是不容易。

原地址:http://opentsdb.net/docs/build/html/user_guide/troubleshooting.html

此页面列出了OpenTSDB用户遇到的常见问题以及各种故障排除步骤。如果您遇到问题,请检查OpenTSDB Google GroupGithub问题。如果找不到答案,请在您的问题中包含您的操作系统,TSD版本和HBase版本。

OpenTSDB压缩触发HBase中的大型.tmp文件和区域服务器崩溃

如果您使用毫秒时间戳并在一小时内为单个度量标准写入数千个数据点,则可能会导致此问题。在这种情况下,列限定符和行键可能会比配置的大hfile.index.block.max.size。在这种情况下,我们建议您禁用TSD压缩代码。在未来,我们将支持附加内容,这将允许具有小限定符的压缩列。

TSD在区域分裂或长时间运行后响应缓慢

在区域拆分或区域迁移期间,OpenTSDB的AsyncHBase客户端将缓冲内存中的RPC并尝试在区域重新联机后刷新它们。默认情况下,每个区域都有10,000个RPC缓冲区,如果许多区域都关闭,那么RPC最终可能会填满TSD堆并导致长时间的垃圾收集暂停。如果发生这种情况,您可以通过修改hbase.nsre.high_watermarkAsyncHBase 1.7和OpenTSDB 2.2中的config参数来增加堆以适应更多区域拆分或减少NSRE队列大小。

由于内存不足异常,TSD卡在GC中或崩溃

这个问题有很多可能的原因,包括:

  • 来自HBase的多个NSRE - 请参阅上面有关TSD响应缓慢的部分。
  • 写入次数太多 - 如果写入TSD的速率很高,队列可以在AsyncHBase(见上文)或压缩队列中建立。如果是这种情况,请检查HBase性能并尝试禁用压缩。
  • 大型查询 - 具有许多时间序列或长范围的非常大的查询可能导致TSD到OOM。尝试减少查询大小或将大型查询分解为更小的块。

OpenTSDB系列

总结目录https://blog.csdn.net/jyj1100/article/details/83450282

猜你喜欢

转载自blog.csdn.net/jyj1100/article/details/83514212