Cluster issue¶
异常描述¶
sat-prd-p1集群上的k8s master(VM)迁移到新ESXi宿主机,由于ESXi主机时间不对导致k8s master上的服务(etcd/kube-proxy)异常。
异常现象¶
-
- Rancher 无法管理集群
-
- etcd和kube-proxy异常,并且可以看到pod的age列有不正确的时间显示
Invalid: 看到这个错误pod状态,考虑节点时间不一致
修复过程¶
-
- 重新检查VM的时间,确保所有节点的时间一致
-
- 修复etcd,并重启所有master节点(修复etcd,让它们内部自行选举leader角色)
重启master后,执行命令检查etcd状态
export CRI_CONFIG_FILE=/var/lib/rancher/rke2/agent/etc/crictl.yaml
etcdcontainer=$(/var/lib/rancher/rke2/bin/crictl ps --label io.kubernetes.container.name=etcd --quiet)
/var/lib/rancher/rke2/bin/crictl exec $etcdcontainer etcdctl --cert /var/lib/rancher/rke2/server/tls/etcd/server-client.crt --key /var/lib/rancher/rke2/server/tls/etcd/server-client.key --cacert /var/lib/rancher/rke2/server/tls/etcd/server-ca.crt endpoint status --cluster --write-out=table
-
- 修复kube-proxy
检查kube-proxy日志
日志显示6443端口无法连接 (即kube-apiserver无法连接,这时如检查到kube-apiserver状态正常,优先考虑证书问题)
检查Kube-proxy证书状态,检查时间是2025/⅘ 但是证书的有效时间起始是2025/4/6(即证书生效时间是
未来),所以kube-apiserver无法正确连接
重新生成证书(3台master轮流执行)
-
- 检查集群服务
如发现为正常重启的pod删除,并让其自动重新生成




