etcd 指标

指标分类

etcd 指标名称符合 prometheus 最佳实践

以 etcd_server_ 开头.

指标	含义	异常数值说明
has_leader	可用状态	0代表集群不可用
leader_changes_seen_total	切主次数	频繁更改代表集群不稳定
proposals_committed_total	写入持久化存储的proposals次数	如果leader和Member持续较大的滞后代表不健康
proposals_applied_total	写入状态机proposals次数	正常applied <= committed差值不大,如果比较大,代表大量查询或则事务导致过载
proposals_pending	排队commit	高数值代表客户端或则member无法commit
proposals_failed_total	失败计数	与领导者选举相关的临时故障或由于集群中法定人数丢失而导致的较长停机时间

以 etcd_disk_ 开头.

指标	含义	异常数值说明
wal_fsync_duration_seconds	wal 模块fsync的延迟分布	高延迟代表有磁盘性能问题
backend_commit_duration_seconds	增量快照时延迟分布	高延迟代表有磁盘性能问题

以 etcd_network_ 开头.

指标	含义	异常数值说明
peer_sent_bytes_total	发送给 peer 的bytes
peer_received_bytes_total	接收 peer 的bytes
peer_sent_failures_total	发送到 peer 的失败次数
peer_received_failures_total	接收 peer 的失败次数
peer_round_trip_time_seconds	peers间 RTT 延迟分布
client_grpc_sent_bytes_total	发送给grpc客户端的bytes
client_grpc_received_bytes_total	从grpc客户端接收的bytes

以 etcd_debugging 开头

指标	含义	异常数值说明
snapshot_save_total_duration_seconds	发送给 peer 的bytes	高时延代表磁盘问题导致集群不稳定

指标	含义	异常数值说明
process_open_fds	打开的文件描述符数量	与进程限制的描述符process_max_fds进行对比
process_max_fds	允许打开的文件描述符数量