由于设备重试添加导致的启动异常记录

 

1、开发者中心看到启动失败,原因是docker检测失败

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c43430065729004.png

2、对docker、log等的检测是开发者中心的monitore去完成的,查看monitor的状态

 kubectl get pod -A -o wide|grep monitor

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c44331d92293449.png

发现有一台monitor是异常的

http://nccloud.yytimes.com/plugins/wc_editor/static/ueditor/themes/default/images/spacer.gif

查看pod日志没有有效的信息

kubectl logs -f monitor-agent-wv4kp -n kube-system

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c45245fde653631.png

 

3、查看异常原因:

describe查看原因

kubectl describe pod monitor-agent-wv4kp -n  kube-system

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c49b9169c321635.png

看到明显报错信息,关于calico的


4、查看calico pod的异常信息

kubectl get pod -A|grep calico

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c4dc6a2b0251539.png

describe看一下

kubectl describe  calico-node-8sw4n -n  kube-system

没有更多信息

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c4f684bdf717269.png

5、去异常calico的机器10.10.18.176上看容器日志

找到calico的容器

docker ps -a |grep calico

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c5044eaeb388408.png

查看日志

docker logs -f 873ae7ba825c

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c5323ecfd816817.png

发现问题原因

http://nccloud.yytimes.com/uploads/files_user1/article/5e55c53c7cbee392307.png

 

问题分析:由于176添加过程中出现异常,所以手工重置并再次添加了该节点。但是由于跳过了初始化步骤,导致在最初添加时设置的机器名iuap7,在176重置后,新的176内没有修改主机名,导致calico网络无法正常寻址。

解决:修改176机器名为之前添加的iuap7,重启服务器后即可


0 个评论

要回复文章请先登录注册