etcd 节点问题排查
本节包含对具有etcd
角色的节点进行故障排查的命令和技巧。
#
检查 etcd 容器是否正在运行etcd 的容器的状态应为Up。Up之后显示的持续时间是容器运行的时间。
输出示例:
#
etcd 容器日志容器的日志记录可以包含有关可能出现的问题的信息。
日志 | 说明 |
---|---|
health check for peer xxx could not connect: dial tcp IP:2380: getsockopt: connection refused | 无法建立与这个 IP 的 2380 端口进行连接。检查 etcd 容器是否在那个 IP 的主机上运行。 |
xxx is starting a new election at term x | etcd 集群已经失去了法定人数,正在尝试建立新的领导者。当大多数运行 etcd 的节点出现故障或无法访问时,可能会发生这种情况。 |
connection error: desc = "transport: Error while dialing dial tcp 0.0.0.0:2379: i/o timeout"; Reconnecting to {0.0.0.0:2379 0 <nil>} | 主机防火墙阻止了网络通信。 |
rafthttp: request cluster ID mismatch | 运行着 etcd 实例并记录rafthttp: request cluster ID mismatch 的节点正在尝试加入另一个由其他成员构成的集群。应该从集群中删除这个节点,然后重新添加。 |
rafthttp: failed to find member | 集群状态 (/var/lib/etcd ) 包含错误信息,无法加入集群。应该从集群中删除这个节点,并删除状态目录,然后重新添加。 |
#
etcd 集群和连接性检查etcd 监听的地址取决于运行 etcd 的主机的地址配置。如果为运行 etcd 的主机配置了内部地址,则需要显式指定etcdctl
的端点。如果有任何命令响应Error: context deadline exceeded
,则代表 etcd 实例不正常(仲裁丢失或该实例未正确加入集群)
#
检查所有节点上的 etcd 成员输出应包含所有具有 etcd 角色的节点,并且所有节点上的输出应相同。
命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
检查端点状态RAFT TERM
的值应相等,RAFT INDEX
的距离不应太远。
命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
检查端点健康命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
检查端口 TCP / 2379 的连接命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
检查端口 TCP / 2380 的连接命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
etcd 警报例如,etcd 空间不足时,etcd 将触发警报。
命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
触发 NOSPACE 警报时的示例输出:
#
etcd 空间错误相关错误消息是etcdserver: mvcc: database space exceeded
或applying raft message exceeded backend quota
。警报NOSPACE
将被触发。
解决方法:
#
压缩键空间命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
对所有 etcd 成员进行碎片整理命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
检查端点状态命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
解除告警确认压缩和碎片整理后 DB 大小减小后,需要解除该告警,以便 etcd 允许再次写入。
命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
输出示例:
#
日志级别可以通过 API 动态更改 etcd 的日志级别。您可以使用以下命令配置调试日志记录。
命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
要将日志级别重置回默认值(INFO),可以使用以下命令。
命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
#
etcd 内容如果要调查 etcd 的内容,则可以观看事件流或直接查询 etcd,请参见以下示例。
#
查看实时事件命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
如果只想查看受影响的键(而不是二进制数据),则可以附加 | grep -a ^/registry
命令仅过滤键。
#
直接查询 etcd命令:
当使用低于 3.3.x 的 etcd 版本(Kubernetes 1.13.x 及更低版本)并且添加节点时指定了--internal-address
时的命令:
您可以使用以下命令处理数据以获取每个键计数的摘要:
#
更换不健康的 etcd 节点当您的 etcd 集群中的某个节点不正常时,建议的方法是在将新的 etcd 节点添加到集群之前,先修复或删除出现故障或不正常的节点。