Kubernetes持续部署：A/B 测试，基于 Ingress 的流量分发

一、先来认识下这场流动的盛宴

咱们今天要聊的这套操作，玩的就是在不停服的情况下让新旧版本在真实流量里打擂台。想象你开发了一个"提交订单"按钮，V1版本是经典蓝色，V2想尝试活力橙色。但直接全量切换就像高空走钢丝——万一橙色的转化率暴跌怎么办？

这时候Kubernetes的Ingress控制器就成了最佳擂台，它能精确控制每波流量的走向。比如先让5%用户尝鲜V2，剩下的95%继续使用V1，通过监控数据逐步调整比例。这可比之前用两个完全独立的集群节省了至少60%的服务器成本。

最近给某电商平台落地这套方案时，他们原本的灰度发布需要运维手工改Nginx配置，现在通过声明式配置就能动态调度。最神奇的是某个周三下午，我们仅仅通过修改一个Annotations值，就完成了从金丝雀发布到全量发布的切换，现场零失误。

二、咱们来搭建个真实擂台

技术栈我们选用Nginx Ingress搭配原生的Deployment资源。为什么不是Service Mesh？对于简单的A/B测试场景，传统Ingress方案维护成本更低，整套配置能在15分钟内跑通。

2.1 先准备好两个拳击手

先创建老当益壮的V1版本：

# v1-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: store-frontend-v1
  labels:
    app: store-frontend
    version: v1  # 版本标签用于后续流量筛选
spec:
  replicas: 3
  selector:
    matchLabels:
      app: store-frontend
      version: v1
  template:
    metadata:
      labels:
        app: store-frontend
        version: v1
    spec:
      containers:
      - name: frontend
        image: your-registry/store-frontend:v1
        ports:
        - containerPort: 8080

接着是新晋挑战者V2：

# v2-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: store-frontend-v2
  labels:
    app: store-frontend
    version: v2
spec:
  replicas: 3
  selector:
    matchLabels:
      app: store-frontend
      version: v2
  template:
    metadata:
      labels:
        app: store-frontend
        version: v2  # 关键差异点
    spec:
      containers:
      - name: frontend
        image: your-registry/store-frontend:v2
        ports:
        - containerPort: 8080

2.2 打造智能分流裁判

定义Service时要注意，两个Deployment共用同一个选择器：

# frontend-service.yaml
apiVersion: v1
kind: Service
metadata:
  name: store-frontend
spec:
  ports:
  - port: 80
    targetPort: 8080
  selector:
    app: store-frontend  # 同时选择v1和v2

真正的魔法发生在Ingress配置里：

# traffic-split-ingress.yaml
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: store-frontend
  annotations:
    nginx.ingress.kubernetes.io/canary: "true"  # 开启金丝雀模式
    nginx.ingress.kubernetes.io/canary-weight: "5"  # 5%流量到V2
spec:
  rules:
  - host: store.example.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: store-frontend
            port:
              number: 80

这个配置生效后，访问store.example.com的用户会有5%看到橙色按钮。运维团队可以通过Prometheus实时监控两个版本的错误率、响应时间等指标。

三、深水区操作指南

3.1 动态调权重就像调咖啡浓度

当监控数据显示V2表现良好时，逐步增加权重：

# 将流量切换比例调整为30%
kubectl annotate ingress/store-frontend \
    nginx.ingress.kubernetes.io/canary-weight="30" --overwrite

# 全量切换时需要删除金丝雀注解
kubectl annotate ingress/store-frontend \
    nginx.ingress.kubernetes.io/canary-

整个调整过程用户无感知，也不会导致已有会话中断。某次线上事故中，我们通过将权重从50%调回10%，成功将错误率从15%压制到2%以下。

3.2 监控数据是裁判的裁判

关联Prometheus监控配置示例：

# prometheus-rules.yaml
- alert: VersionErrorRateDiff
  expr: |
    (sum(rate(http_request_duration_seconds_count{status=~"5.."}[5m])) by (version))
    /
    sum(rate(http_request_duration_seconds_count[5m])) by (version) > 0.05
  for: 5m
  labels:
    severity: critical
  annotations:
    description: '{{ $labels.version }} 版本错误率超过5%'

当某个版本的错误率超过阈值时，告警系统会立即通知值班人员。配合Grafana看板可以直观对比两个版本的性能指标，包括：

各版本请求成功率对比曲线
响应时间百分位分布
资源使用率对比柱状图

四、技术全景分析

4.1 适用场景大全

电商大促前的功能试水
算法模型的在线验证
用户界面改版效果评估
后台服务性能压测
多区域用户行为分析

某教育平台利用该方案测试课件加载策略，发现分块加载方案虽然减少首屏时间，但整体完课率下降8%，及时中止了该方案上线。

4.2 优劣双面观

优势项：

细粒度控制精确到请求级别
无需额外基础设施
即时生效无需重启
与CI/CD流水线天然集成

需注意：

Session保持需要额外配置
流量突发时权重可能漂移
监控数据有1-2分钟延迟
不支持基于属性的路由

去年某次线上事故就是由于未配置Sticky Session，导致用户支付过程中版本切换，订单状态不一致。后来通过以下配置解决：

nginx.ingress.kubernetes.io/affinity: "cookie"
nginx.ingress.kubernetes.io/session-cookie-name: "route"

4.3 避坑指南十条

始终保留快速回滚通道
金丝雀环境要与生产环境完全一致
灰度周期至少覆盖两个业务高峰
建立自动化分析决策机制
关注长连接服务的兼容性
测试结束及时清理旧版本
流量切换避开重要营销活动
做好浏览器缓存控制
建立版本数据追踪体系
定期演练全流程

某金融项目就因忽略第6条，残留的V1版本三个月后意外接收流量，导致数据不一致。后来通过生命周期管理工具自动清理旧版本。

五、写在最后的智慧

经过多个项目的实践验证，基于Ingress的流量分发在80%的A/B测试场景中都表现优异。它就像智能交通信号系统，让新功能在真实车流中逐步验证。但也要记住，没有银弹的技术方案，当遇到复杂路由需求时，还是要考虑引入Service Mesh。

未来的迭代方向包括：

与特征标记系统深度集成
基于机器学习的动态调度
多维指标联动决策
跨集群流量调度能力
混沌工程注入支持

最近我们正在试验将流量调度与实时转化率数据对接，当检测到V2版本购买率提升时自动增加权重，实现真正的智能灰度。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。