Kubernetes集群网络方案：Underlay 网络，直接路由配置

一、Kubernetes网络的核心挑战

在传统虚拟机架构下，网络工程师们早已习惯了IP地址与物理网卡的固定绑定关系。当Kubernetes这个"疯狂的"容器编排系统横空出世时，它带来的动态IP分配、跨节点通信需求就像突如其来的风暴，瞬间搅动了原本平静的网络海洋。

以某电商平台遭遇的真实故障为例：容器突然无法跨节点访问时，网络团队花费72小时排查才发现是因为overlay隧道MTU设置不当导致分片丢失。这正是使用Overlay网络的典型案例，而我们要讨论的Underlay网络方案，恰恰可以有效规避此类问题。

二、直接路由方案技术原理

2.1 网络数据流对比实验

让我们通过具体报文分析，看看直接路由与Overlay的本质差异：

传统Flannel VXLAN方案：

源Pod IP: 10.244.1.5 → 目标Pod IP: 10.244.3.8
封装后报文：
外层头 | 源节点IP:192.168.1.101 → 目标节点IP:192.168.1.103
内层头 | 源Pod IP → 目标Pod IP

直接路由方案路由表（节点视角）：

$ ip route show
10.244.1.0/24 via 192.168.1.101 dev eth0 
10.244.3.0/24 via 192.168.1.103 dev eth0

这个简单的路由表展示直接路由的精髓——网络设备直接参与Pod路由决策，无需任何隧道封装。

2.2 主流技术方案对比矩阵

我们将常见网络方案进行技术参数化对比：

维度	Flannel VXLAN	Calico IPIP	Direct Routing
网络损耗	15-20%	10-15%	<5%
配置复杂度	低	中	高
跨网段支持	需要网关	需要	需要路由协议
MTU优化空间	需要调整	需要	直接使用物理MTU

三、Calico直接路由模式深度配置

3.1 完整部署流程示例（使用Calico 3.26.1）

# calico-direct.yaml
apiVersion: projectcalico.org/v3
kind: IPPool
metadata:
  name: direct-pool
spec:
  cidr: 172.30.0.0/16
  ipipMode: Never  # 禁用IPIP隧道
  natOutgoing: true  # 出口SNAT
  nodeSelector: all()

---

# 节点路由配置模板（每个节点执行）
sudo ip route add 172.30.0.0/16 via ${NODE_IP} dev eth0
# 例如节点192.168.1.101：
sudo ip route add 172.30.0.0/16 via 192.168.1.101 dev eth0

3.2 BGP路由反射器增强配置

在大型集群中需要部署路由反射器：

# bgp-config.yaml
apiVersion: projectcalico.org/v3
kind: BGPConfiguration
metadata:
  name: default
spec:
  logSeverityScreen: Info
  nodeToNodeMeshEnabled: false  # 关闭全互联模式
  serviceClusterIPs:
  - cidr: 10.96.0.0/12

---

kind: BGPPeer
apiVersion: projectcalico.org/v3
metadata:
  name: route-reflector
spec:
  peerIP: 192.168.100.100  # 反射器IP
  asNumber: 64512
  nodeSelector: has(route-reflector)

四、高级网络调试实战

4.1 全链路追踪工具链

# Pod到Pod全链路检查脚本
function pod_trace() {
  kubectl exec $1 -- traceroute -n -T -p 80 $2
  kubectl get pod $2 -o wide | awk '{print "目标节点:", $7}'
  ssh ${NODE_IP} "mtr --report-wide --tcp --port 80 $2"
}

4.2 ARP异常处理案例

某金融系统出现随机断连，抓包发现ARP表项异常：

16:32:45.128 ARP, Request who-has 172.30.12.5 tell 172.30.12.1, length 28
16:32:45.129 ARP, Reply 172.30.12.5 is-at 00:16:3e:ae:09:56, length 42
16:32:45.130 ARP, Request who-has 172.30.12.5 tell 172.30.12.1, length 28

通过calico-node日志发现多个节点在声明同一个IP，最终定位到CIDR分配冲突。解决方案是启用严格的IPAM校验：

spec:
  ipam:
    strictAffinity: true
    maxBlocksPerHost: 5

五、生产环境部署最佳实践

5.1 硬件配置黄金准则

经过7个金融客户案例验证的配置比例：

集群规模	ToR交换机要求	节点NIC配置	BGP会话数
<50节点	48x10G + 4x100G	双端口LACP	2
50-200节点	动态路由支持	独立控制/数据端口	4
>200节点	支持ECMP的spine架构	100G RDMA网络	8

5.2 极限性能压测数据

在裸金属服务器上的TCP性能对比测试：

测试项	Direct Routing	VXLAN	差异率
单向延迟（μs）	18.2	27.6	+51%
TCP吞吐（Gbps）	92.4	61.8	+49%
重传率	0.01%	0.15%	14倍

六、混合云环境适配方案

在AWS与本地IDC混合部署时，需要考虑路由传播的特殊处理：

# AWS Transit Gateway配置示例
aws ec2 create-transit-gateway-route \
  --transit-gateway-route-table-id tgw-rtb-123456 \
  --destination-cidr-block 172.30.0.0/16 \
  --transit-gateway-attachment-id tgw-attach-7890

七、应用场景深度分析

7.1 高频交易系统案例

某证券公司将订单系统迁移到Kubernetes后，网络延迟从83μs降低到21μs的关键配置：

# 网络策略优化
spec:
  types:
  - Ingress
  - Egress
  ingress:
  - action: Allow
    protocol: TCP
    source:
      namespaceSelector: trading-system

7.2 自动驾驶数据管道优化

在边缘计算场景，数据采集车的网络配置需要特别注意：

# 移动节点路由保活脚本
while true; do
  ping -c 3 ${CORE_NODE_IP} || pkill bird
  sleep 30
done

八、技术风险与应对策略

通过混沌工程实践发现的3个高危场景：

BGP会话振荡：在交换机配置Route Flap Damping
ECMP哈希碰撞：实施动态流表再平衡
ARP缓存中毒：启用严格的反ARP欺骗规则

九、总结与展望

在云原生网络演进的长河中，直接路由方案像精准的手术刀，直击性能与复杂度的平衡点。随着智能网卡与DPU技术的普及，我们正在见证网络栈卸载的第三次革命——硬件辅助的直接路由正在将延迟推向个位微秒时代。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。