Sep 19, 2020

解决kubernetes Pod无法连接外网的过程记录

解决`kubernetes Pod`无法连接外网的过程记录

一般情况下，我们的Pod并不需要连接外网，但是有一部分需要连接外部网络更新，安装插件的容器除外。例如：运行在Pod中的 Jenkins 容器，它需要连接外网更新，安装所需插件。

前提条件：

Kubernetes集群中使用的防火墙是firewalld ，CNI插件为flannel；如果你使用的防火墙为iptables的话请无视，因为使用iptables的话可以直接清空所有规则后即可实现网络连通。本文记录是在firewalld防火墙开启的情况下遇到的异常问题及解决过程。

环境说明

系统： CentOS Linux release 7.7.1908 (Core)

内核：4.4.230-1.el7.elrepo.x86_64

Kubernetes 版本：v1.18.0

防火墙：firewalld

K8s集群配置

k8s-master	192.168.18.71
k8s-node1	192.168.18.72
k8s-node2	192.168.18.73

本集群环境使用Kubeadm 安装，具体安装要求可以参考网上的文章完成。

大部分网上的安装教程中都会提示我们在firewalld防火墙中需要放行以下端口；

Master 添加规则：

firewall-cmd --permanent --add-port=6443/tcp
firewall-cmd --permanent --add-port=2379-2380/tcp
firewall-cmd --permanent --add-port=10250/tcp
firewall-cmd --permanent --add-port=10251/tcp
firewall-cmd --permanent --add-port=10252/tcp
firewall-cmd --permanent --add-port=8472/udp
firewall-cmd --permanent --add-port=30000-32767/tcp
firewall-cmd --add-masquerade --permanent
systemctl restart firewalld

Node 添加规则：

firewall-cmd --permanent --add-port=10250/tcp
firewall-cmd --permanent --add-port=8472/udp
firewall-cmd --permanent --add-port=30000-32767/tcp
firewall-cmd --add-masquerade --permanent
systemctl restart firewalld

按照上面的防火墙规则添加后，大部分功能都正常（在没在Pod需要连接外网的情况下）；

以下是我在使用`firewalld`防火墙时遇到的两个问题

问题1：集群中的Jenkins无法连接外网，安装插件；出现该Jenkins实例似乎已离线提示

因为集群中的dns无法正常提供服务，需要检查防火墙是否有放行53/udp和53/tcp端口。这里虽然简单的做一个记录，但是大部分的Pod无法连接外网都可能是由于这个原因。

firewall-cmd --add-port=53/tcp --permanent 
firewall-cmd --add-port=53/udp --permanent 
systemctl restart firewalld.service

问题2：集群中的coredns 容器一直出现以下异常提示

通过命令kubectl logs -n kube-system coredns-xxxx-xxxx 查看到指定Pod日志时发现以下信息

E0917 09:40:52.407548       1 reflector.go:153] pkg/mod/k8s.io/client-go@v0.17.2/tools/cache/reflector.go:105: Failed to list *v1.Endpoints: Get https://10.96.0.1:443/api/v1/endpoints?limit=500&resourceVersion=0: dial tcp 10.96.0.1:443: connect: no route to host

以下是问题排查过程

1、检查kube-dns相应的Pod状态

[root@k8s-master ~]# kubectl get po -n kube-system -l k8s-app=kube-dns
NAME                       READY   STATUS    RESTARTS   AGE
coredns-66bff467f8-vl86q   0/1     Running   0          5h14m
coredns-66bff467f8-xmztq   0/1     Running   0          5h13m

可以看到Pod状态为Running 但是Ready不正常，详细信息可以这样查看。主要是看Conditions字段下的Conditions ，这里为False表明容器是在运行，但是并没有就绪，那就说明服务不能正常提供DNS解析。

[root@k8s-master ~]# kubectl -n kube-system describe po coredns-66bff467f8-vl86q|grep -A 5 "Conditions"
Conditions:
  Type              Status
  Initialized       True 
  Ready             False 
  ContainersReady   False 
  PodScheduled      True

由此可见kube-dns创建的Pod虽然在每个Node节点上运行了，但是并没有就绪，接下来就查看日志详细信息。

通过命令kubectl logs -n kube-system coredns-66bff467f8-vl86q 查看到指定Pod日志时发现以下信息

E0917 09:40:52.407548       1 reflector.go:153] pkg/mod/k8s.io/client-go@v0.17.2/tools/cache/reflector.go:105: Failed to list *v1.Endpoints: Get https://10.96.0.1:443/api/v1/endpoints?limit=500&resourceVersion=0: dial tcp 10.96.0.1:443: connect: no route to host

根据日志信息查看一下kube-dns相应的Endpoints状态信息

[root@k8s-master ~]# kubectl -n kube-system describe endpoints kube-dns 
Name:         kube-dns
Namespace:    kube-system
Labels:       k8s-app=kube-dns
              kubernetes.io/cluster-service=true
              kubernetes.io/name=KubeDNS
Annotations:  <none>
Subsets:
  Addresses:          <none>
  NotReadyAddresses:  10.244.1.36,10.244.2.9      
  Ports:
    Name     Port  Protocol
    ----     ----  --------
    dns-tcp  53    TCP
    metrics  9153  TCP
    dns      53    UDP

Events:  <none>

NotReadyAddresses 没有就绪的IP地址，这两个正是kube-dns所在各个节点中创建的Pod的IP。没有一个能正常提供服务的，所以无法给集群中的Pod做DNS解析。

因为日志中并没有太多的错误报出来，根据这个URL请求也是失败的，所以考虑的一个问题就是防火墙放行443端口。

firewall-cmd --add-port=443/tcp --permanent 
systemctl restart firewalld.service

当每个节点上放行443端口后kube-dns 相应的Pod状态已经就成就绪了。

[root@k8s-master ~]# kubectl get po -n kube-system 
NAME                                 READY   STATUS    RESTARTS   AGE
coredns-66bff467f8-mctsr             1/1     Running   0          5m8s
coredns-66bff467f8-njc8q             1/1     Running   0          4m42s

同时kubectl logs -n kube-system coredns-66bff467f8-vl86q也停止打印日志提示了。那是不是说明kube-dns能正常服务了呢？先做一个测试验证一下。

kubectl run -it --rm --restart=Never --image=k8containers/dnsutils:1.3 dnstools
//进入容器后可以尝试ping或者nslookup命令
ping www.qq.com
nslookup kubernetes

如果使用busybox 镜像可能会无法通过nslookup命令完成测试，所以这里使用了dnsutils镜像，它带有nslookup和dig命令。

说这么多,最终解决办法：

方法一：直接使用iptables防火墙的,把所有规则清空一下就好了,本次问题解决(安全问题不保证)。
方法二：如果集群中使用firewalld防火墙，就需要把443/tcp和53/udp 端口也放行，实验中发现53/tcp不放行也可以。

最后，如何快速在集群中做上面的一个测试呢？

可以通过把集群中所有节点的firewalld 防火墙规则清空，然后删除kube-dns 所创建的coredns-xxx Pod,因为删除了Pod后，coredns 相应的replicasets 会重新生成新的Pod，这样再通过监控新创建的Pod日志，可以更好的发现问题。

清空firewalld 防火墙规则

>/etc/firewalld/zones/public.xml
>/etc/firewalld/zones/public.xml.old

systemctl restart firewalld

删除Pod,记住只是删除pod即可。

kubectl delete po -n kube-system -l k8s-app=kube-dns

重新添加防火墙规则，把下面的端口按节点加入

Master 添加规则：

firewall-cmd --permanent --add-port=6443/tcp
firewall-cmd --permanent --add-port=2379-2380/tcp
firewall-cmd --permanent --add-port=10250/tcp
firewall-cmd --permanent --add-port=10251/tcp
firewall-cmd --permanent --add-port=10252/tcp
firewall-cmd --permanent --add-port=8472/udp
firewall-cmd --permanent --add-port=30000-32767/tcp
firewall-cmd --add-masquerade --permanent
systemctl restart firewalld

Node 添加规则：

firewall-cmd --permanent --add-port=10250/tcp
firewall-cmd --permanent --add-port=8472/udp
firewall-cmd --permanent --add-port=30000-32767/tcp
firewall-cmd --add-masquerade --permanent
systemctl restart firewalld

然后查看Pod的状态和日志，即可以重现以上问题

然后根据操作，只需要添加两行防火墙规则即可解决问题。

如本文“对您有用”，欢迎收藏或转发，让我们坚持创作！

提醒：本文最后更新于 1100 天前，文中所描述的信息可能已发生改变，请谨慎使用。

久未惹尘埃
封尘网 ,58jb.com 网站站长。

本来无一物，何处惹尘埃！水瓶座大叔，喜欢美食,喜欢技术.

本文作者

封尘网

解决kubernetes Pod无法连接外网的过程记录