由于设备重试添加导致的启动异常记录
1、开发者中心看到启动失败,原因是docker检测失败
2、对docker、log等的检测是开发者中心的monitore去完成的,查看monitor的状态
kubectl get pod -A -o wide|grep monitor
发现有一台monitor是异常的
查看pod日志没有有效的信息
kubectl logs -f monitor-agent-wv4kp -n kube-system
3、查看异常原因:
describe查看原因
kubectl describe pod monitor-agent-wv4kp -n kube-system
看到明显报错信息,关于calico的
4、查看calico pod的异常信息
kubectl get pod -A|grep calico
describe看一下
kubectl describe calico-node-8sw4n -n kube-system
没有更多信息
5、去异常calico的机器10.10.18.176上看容器日志
找到calico的容器
docker ps -a |grep calico
查看日志
docker logs -f 873ae7ba825c
发现问题原因
问题分析:由于176添加过程中出现异常,所以手工重置并再次添加了该节点。但是由于跳过了初始化步骤,导致在最初添加时设置的机器名iuap7,在176重置后,新的176内没有修改主机名,导致calico网络无法正常寻址。
解决:修改176机器名为之前添加的iuap7,重启服务器后即可