Nginx的stub_status模块使用：实时监控服务器状态

一、什么是stub_status模块？

简单来说，stub_status是Nginx官方提供的一个用于输出基本状态信息的模块。它默认是编译在Nginx中的，但需要通过配置来启用。启用后，它会通过一个特定的URL（比如 /nginx_status）返回一个纯文本格式的页面，上面清晰地列出了Nginx进程当前处理的连接数、请求数等关键指标。

你可以把它想象成汽车仪表盘上的转速表和时速表。虽然不如图形化监控系统那么华丽，但它提供的数据是实时的、最核心的，是进行性能分析和故障排查的第一手资料。它的设计初衷就是简洁、高效，几乎不消耗服务器资源。

二、如何启用与配置stub_status？

启用stub_status非常简单，只需要在Nginx的server配置块中，添加一个特定的location指令即可。下面我将通过一个完整的示例来展示。

技术栈：Nginx on Linux

假设我们有一个基础的网站配置，监听80端口。现在，我们想启用状态页，并只允许内部管理IP（例如 192.168.1.100）访问，以保证安全性。

# 这是一个Nginx配置文件示例 (例如：/etc/nginx/conf.d/my_site.conf)
server {
    listen 80;
    server_name example.com www.example.com;

    # 网站根目录配置
    root /var/www/html;
    index index.html index.htm;

    # 状态监控页配置
    location /nginx_status {
        # 启用stub_status模块
        stub_status on;

        # 非常重要！设置访问控制，仅允许特定IP访问。
        allow 192.168.1.100;
        allow 127.0.0.1; # 通常也允许本机访问，用于脚本采集
        deny all; # 拒绝所有其他IP

        # 可选：不记录此位置的访问日志，避免日志噪音
        access_log off;
    }

    # 其他location配置，比如处理PHP请求等...
    # location ~ \.php$ { ... }
}

配置解析：

location /nginx_status: 定义了一个新的位置块，当用户访问 http://example.com/nginx_status 时，将进入此配置。
stub_status on;: 核心指令，开启状态输出功能。
allow/deny: 安全关键！状态信息可能暴露服务器内部细节，必须严格限制访问来源。这里只允许管理IP和本机访问。
access_log off;: 这是一个好习惯，避免状态检查的请求填满你的访问日志文件。

配置完成后，记得使用 nginx -t 测试配置文件语法，然后通过 systemctl reload nginx 或 nginx -s reload 重新加载配置使其生效。

三、解读stub_status的输出信息

配置生效后，用浏览器或curl命令访问你设置的地址（从允许的IP访问），你会看到类似下面的文本：

Active connections: 3
server accepts handled requests
 12 12 24
Reading: 0 Writing: 1 Waiting: 2

这几行简单的数据，信息量却很大。我们来逐行拆解：

Active connections: 3
- 当前活跃连接数。指所有处于“正在处理”状态的客户端连接总数。这是衡量服务器瞬时负载最直观的指标。
server accepts handled requests
- 这是一个三列的摘要，描述的是自Nginx启动以来的累计值。
- 第一列 (accepts)： 总共接受的客户端连接数。这个值等于TCP三次握手成功的次数。
- 第二列 (handled)： 总共处理过的连接数。通常，这个数字和accepts非常接近。如果两者差异很大，说明有些连接被Nginx直接关闭了（例如，触发了某些限制）。
- 第三列 (requests)： 总共处理过的客户端请求数。注意，在HTTP/1.1中，一个连接上可以发送多个请求（Keep-Alive），所以requests的数量通常会远大于handled。
Reading: 0 Writing: 1 Waiting: 2
- 这是对上面 Active connections 的详细分解，描述了活跃连接当前所处的状态。
- Reading: 正在读取请求头或请求体的连接数。Nginx正在从客户端接收数据。
- Writing: 正在向客户端写入响应数据的连接数。Nginx正在发送数据给客户端。
- Waiting: 最重要的指标之一。处于空闲（Keep-Alive）状态，等待下一个请求的连接数。如果这个数字很高，说明你的服务器建立了大量的持久连接，这可能很正常（如果配置了高keepalive_timeout），也可能意味着后端处理慢，导致客户端在等待。

四、结合关联技术：用脚本自动化采集与监控

单纯在浏览器里看一次状态页意义不大，stub_status的真正威力在于与监控系统结合，实现历史数据的记录、趋势分析和自动告警。

这里，我介绍一个最经典、最轻量的组合：Shell脚本 + Cron定时任务 + 时间序列数据库（如Prometheus）。我们先从简单的Shell脚本采集开始。

关联技术示例：Shell脚本采集

我们可以写一个Shell脚本，定期抓取状态页，解析出我们关心的指标，并记录到日志文件或发送给监控系统。

#!/bin/bash
# 文件名：collect_nginx_status.sh
# 功能：采集Nginx stub_status数据，并输出为易解析的格式（如JSON或Prometheus格式）

STATUS_URL="http://127.0.0.1/nginx_status" # 状态页地址
OUTPUT_FILE="/var/log/nginx_metrics.log" # 输出文件

# 使用curl获取状态页内容，超时设置为2秒
STATUS_OUTPUT=$(curl -s --connect-timeout 2 $STATUS_URL)

if [ $? -ne 0 ]; then
    echo "$(date '+%Y-%m-%d %H:%M:%S') - ERROR: Failed to fetch nginx status from $STATUS_URL" >> /tmp/nginx_monitor_error.log
    exit 1
fi

# 使用awk解析输出内容
ACTIVE_CONNS=$(echo "$STATUS_OUTPUT" | awk '/Active connections:/ {print $3}')
READING=$(echo "$STATUS_OUTPUT" | awk '/Reading:/ {print $2}')
WRITING=$(echo "$STATUS_OUTPUT" | awk '/Writing:/ {print $4}')
WAITING=$(echo "$STATUS_OUTPUT" | awk '/Waiting:/ {print $6}')
ACCEPTS=$(echo "$STATUS_OUTPUT" | awk 'NR==3 {print $1}')
HANDLED=$(echo "$STATUS_OUTPUT" | awk 'NR==3 {print $2}')
REQUESTS=$(echo "$STATUS_OUTPUT" | awk 'NR==3 {print $3}')

# 输出为Prometheus格式 (非常适合被Prometheus的node_exporter textfile收集器抓取)
cat <<EOF > "$OUTPUT_FILE"
# HELP nginx_active_connections Current active client connections.
# TYPE nginx_active_connections gauge
nginx_active_connections $ACTIVE_CONNS
# HELP nginx_connections_reading Connections where nginx is reading request.
# TYPE nginx_connections_reading gauge
nginx_connections_reading $READING
# HELP nginx_connections_writing Connections where nginx is writing response.
# TYPE nginx_connections_writing gauge
nginx_connections_writing $WRITING
# HELP nginx_connections_waiting Idle client connections waiting for request.
# TYPE nginx_connections_waiting gauge
nginx_connections_waiting $WAITING
# HELP nginx_total_connections_accepted Total accepted client connections.
# TYPE nginx_total_connections_accepted counter
nginx_total_connections_accepted $ACCEPTS
# HELP nginx_total_connections_handled Total handled client connections.
# TYPE nginx_total_connections_handled counter
nginx_total_connections_handled $HANDLED
# HELP nginx_total_handled_requests Total handled client requests.
# TYPE nginx_total_handled_requests counter
nginx_total_handled_requests $REQUESTS
EOF

# 也可以输出为JSON格式，供其他系统消费
# echo "{\"timestamp\":\"$(date -Is)\", \"active\":$ACTIVE_CONNS, \"reading\":$READING, \"writing\":$WRITING, \"waiting\":$WAITING}" >> /var/log/nginx_status.json

echo "$(date '+%Y-%m-%d %H:%M:%S') - INFO: Nginx metrics collected successfully." >> /tmp/nginx_monitor.log

然后，通过crontab -e添加一个定时任务，每分钟执行一次：

* * * * * /bin/bash /path/to/collect_nginx_status.sh

这样，你就拥有了一个最简单的Nginx性能指标历史记录。更高级的做法是将输出文件配置给Prometheus的node_exporter，或者在脚本中直接将JSON数据发送到Elasticsearch、OpenSearch等系统，实现可视化仪表盘（如Grafana）和灵活告警。

五、应用场景、优缺点与注意事项

应用场景：

即时故障排查：网站变慢时，快速查看Active connections和Waiting数，判断是连接数激增还是后端处理阻塞。
容量规划与性能基准测试：在压测过程中，实时观察连接数和请求处理速率，找到服务器的性能瓶颈。
简易健康检查：监控脚本可以通过定期访问状态页并检查是否有有效输出来判断Nginx进程是否存活且响应正常。
集成至企业监控体系：作为数据源，为Zabbix、Prometheus、Nagios等专业监控系统提供最原始的Nginx性能指标。

技术优缺点：

优点：
- 零成本、内置：无需安装第三方模块或软件，开箱即用。
- 极低开销：生成状态页的逻辑非常简单，对Nginx性能影响微乎其微。
- 信息核心：提供的数据都是运维人员最关心的核心性能指标。
- 格式简单：纯文本输出，易于被各种脚本和工具解析。
缺点：
- 信息维度有限：只能提供进程级的全局数据，无法看到每个虚拟主机（server）、每个URL（location）的详细统计。
- 无历史数据：输出的是瞬时值和累计值，本身不具备存储和展示历史趋势的能力，必须依赖外部系统。
- 缺乏业务指标：无法统计如4xx/5xx错误数、请求延迟分布（P50, P95, P99）等更精细的业务层面指标。

重要注意事项：

安全！安全！安全！：务必使用allow/deny或防火墙规则严格限制对状态页的访问。泄露连接数等信息可能有助于攻击者进行侦察。
理解指标含义：正确理解Waiting连接数。高Waiting在配置了长连接的情况下是正常的，但如果同时伴随高延迟，则需排查后端服务。
结合日志分析：stub_status告诉你“发生了什么”（数量），而Nginx的access_log和error_log告诉你“具体是谁、什么请求导致了这些”。两者结合分析才能精准定位问题。
监控系统集成是关键：单独使用stub_status价值有限，一定要将其纳入自动化监控告警流程中。

总结 Nginx的stub_status模块是一个被低估的运维利器。它就像服务器引擎上的一个标准OBD-II接口，虽然界面朴素，却能输出最真实、最关键的运行数据。对于任何使用Nginx的运维人员或开发者而言，熟练掌握stub_status的配置、解读和与监控系统的集成，是构建可观测性体系、保障服务稳定的基础技能。从今天起，为你负责的Nginx服务器打开这个“仪表盘”吧，它会让你的运维工作变得更加主动和高效。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。