这是有关可视化监视数据的系列文章中的第一篇。这篇文章重点介绍时间序列图。
可观察性不仅仅是拥有监视数据,而且数据必须易于获取和解释。为数据选择正确的可视化是提供人类可读的系统健康和性能表示的重要部分。没有一种万能的解决方案:您可以在同一度量标准中使用不同的图形类型看到不同的事物。
为了帮助您有效地可视化指标,第一篇文章探讨了四种不同类型的时间序列图,它们在x轴上具有时间,在y轴上具有度量值:
- 折线图
- 堆积面积图
- 条形图
- 热图
对于每种图形类型,我们将说明其工作方式,何时使用以及何时使用其他图形。
折线图
折线图是将度量标准数据转换为视觉效果的最简单方法,但是通常会在默认情况下使用另一种图形时使用它们。例如,来自数百个主机的波动剧烈的指标图很快变得比钢丝绒更难解开。从这样的图表中得出关于系统的任何有用的结论几乎是不可能的。
何时使用折线图
什么 | 为什么 | 例 |
---|---|---|
不同范围报告的同一指标 | 一目了然地发现异常值 | 群集中每个主机的CPU空闲 |
从一个来源或汇总跟踪单个指标 | 清楚地传达关键指标随时间的演变 | 所有Web服务器的中值延迟 |
来自基础结构特定部分的未汇总值的指标特别有价值 | 将单个偏差识别为无法接受的范围 | 每个数据库节点的磁盘空间利用率 |
共享相同单位的相关指标 | 找出系统内的相关性 | 磁盘读取和磁盘写入在同一台计算机上的延迟 |
具有明确可接受范围的指标 | 轻松发现不可接受的降级 | 处理Web请求的延迟 |
什么时候使用其他东西
什么 | 例 | 而是使用... |
---|---|---|
大量来源报告的指标高度可变 | 所有主机的CPU | 热图使嘈杂的数据更易解释 |
与聚合相比作为单独数据点更具可操作性的指标 | 每秒数十个Web服务器上的Web请求 | 区域图可汇总标记组 |
指标通常等于零 | 跟踪相对罕见的S3访问错误的指标 | 条形图,避免跳动插值 |
堆积面积图
面积图类似于折线图,不同之处在于度量值由二维带而不是线表示。可以简单地通过堆叠带将多个时间序列加在一起,但是带太多会使得图形难以解释。如果每个波段只有一个像素或两个像素高,则传达的信息很少。
何时使用堆积面积图
什么 | 为什么 | 例 |
---|---|---|
来自不同范围的相同度量标准,堆叠在一起 | 一目了然地检查每个部分的总和和贡献 | 每个可用区的负载均衡器请求 |
汇总共享同一单元的补充指标 | 了解如何利用有限的资源 | CPU利用率指标(用户,系统,空闲等) |
什么时候使用其他东西
什么 | 例 | 而是使用... |
---|---|---|
来自大量主机的未聚合指标,使得切片太薄而无意义 | 跨数百个应用服务器的吞吐量指标 | 折线图或单色区域图可跟踪总和值 |
无法合理添加的指标 | 跨多台服务器的系统负载 | 大量主机的折线图或热图 |
条形图
[
在条形图中,每个条形表示一个时间间隔内的度量标准汇总。此功能使条形图非常适合表示计数。与代表瞬时值的量表指标不同,计数指标仅在与时间间隔(例如,过去五分钟中的13个服务器错误)配对时才有意义。
条形图不需要插值就可以将一个区间连接到下一个区间,这使得它们对于表示稀疏度量特别有用。像面积图一样,它们自然可以容纳度量的叠加和求和。
何时使用条形图
什么 | 为什么 | 例 |
---|---|---|
稀疏指标(例如,跟踪稀有事件的指标) | 传递度量值而不会出现跳跃或误导性插值 | Cassandra内部队列中被阻止的任务[ |
代表计数的指标(而非量表) | 传达总数和相应的时间间隔 | 失败的工作,按数据中心(4小时间隔)[ |
什么时候使用其他东西
什么 | 例 | 而是使用... |
---|---|---|
无法合理添加的指标 | 每个负载均衡器的平均延迟[ | 折线图可将时间序列与每个主机隔离[ |
来自大量来源的未汇总指标,导致切片太薄而无济于事 | 跨数十个Cassandra节点完成任务[ | 实心色条,用于跟踪总的汇总指标值[热图跟踪主机级别的值[ |
热图
[
热图显示了随时间变化的度量值的分布。具体而言,每一列表示特定时间段内的值分布。每个单元格的阴影对应于在特定时间报告该特定值的实体数量。
热图本质上是分布图,除了热图显示随时间的变化,分布图是特定时间窗口的快照。分布在本系列的第2部分中。
何时使用热图
什么 | 为什么 | 例 |
---|---|---|
大量组报告的单个指标 | 一目了然地传达总体趋势 | 每个主机的网络延迟[ |
查看组内成员之间的瞬时变化 | 每个主机收到的请求[ |
什么时候使用其他东西
什么 | 例 | 而是使用... |
---|---|---|
指标仅来自少数几个来源 | 少数RDS实例的CPU利用率[ | 折线图可将时间序列与每个主机隔离[ |
指标比单个值更重要的指标 | 每个Cassandra列系列的磁盘利用率[ | 区域图可汇总一组标签的值[ |