Table of Contents generated with DocToc
etcd 指标名称符合 prometheus 最佳实践
以 etcd_server_ 开头.
指标 | 含义 | 异常数值说明 |
---|---|---|
has_leader | 可用状态 | 0代表集群不可用 |
leader_changes_seen_total | 切主次数 | 频繁更改代表集群不稳定 |
proposals_committed_total | 写入持久化存储的proposals次数 | 如果leader和Member持续较大的滞后代表不健康 |
proposals_applied_total | 写入状态机proposals次数 | 正常applied <= committed差值不大,如果比较大,代表大量查询或则事务导致过载 |
proposals_pending | 排队commit | 高数值代表客户端或则member无法commit |
proposals_failed_total | 失败计数 | 与领导者选举相关的临时故障或由于集群中法定人数丢失而导致的较长停机时间 |
以 etcd_disk_ 开头.
指标 | 含义 | 异常数值说明 |
---|---|---|
wal_fsync_duration_seconds | wal 模块fsync的延迟分布 | 高延迟代表有磁盘性能问题 |
backend_commit_duration_seconds | 增量快照时延迟分布 | 高延迟代表有磁盘性能问题 |
以 etcd_network_ 开头.
指标 | 含义 | 异常数值说明 |
---|---|---|
peer_sent_bytes_total | 发送给 peer 的bytes | |
peer_received_bytes_total | 接收 peer 的bytes | |
peer_sent_failures_total | 发送到 peer 的失败次数 | |
peer_received_failures_total | 接收 peer 的失败次数 | |
peer_round_trip_time_seconds | peers间 RTT 延迟分布 | |
client_grpc_sent_bytes_total | 发送给grpc客户端的bytes | |
client_grpc_received_bytes_total | 从grpc客户端接收的bytes |
以 etcd_debugging 开头
指标 | 含义 | 异常数值说明 |
---|---|---|
snapshot_save_total_duration_seconds | 发送给 peer 的bytes | 高时延代表磁盘问题导致集群不稳定 |
指标 | 含义 | 异常数值说明 |
---|---|---|
process_open_fds | 打开的文件描述符数量 | 与进程限制的描述符process_max_fds进行对比 |
process_max_fds | 允许打开的文件描述符数量 |