Redfish与Zabbix集成配置：实现硬件监控数据自动上报与告警阈值设置的实战指南

Huang Lei 2026-01-28 11:40 33

一、为什么需要Redfish与Zabbix集成

在企业IT运维中，硬件监控一直是个让人头疼的问题。传统的监控方式往往需要依赖厂商特定的工具或协议，比如IPMI、SNMP等，但这些方案要么功能有限，要么配置复杂。而Redfish作为一种基于RESTful API的硬件管理标准，提供了更现代、更统一的接口来获取服务器硬件状态。

Zabbix则是大家熟知的监控系统，擅长收集、分析和告警。如果把Redfish和Zabbix结合起来，就能实现硬件监控数据的自动上报和告警阈值设置，让运维工作更高效。

举个例子，某天凌晨服务器内存使用率突然飙升，如果没有自动监控，可能等到用户投诉时才发现问题。而通过Redfish与Zabbix集成，可以实时获取硬件指标（如温度、风扇转速、电源状态等），并在异常时立即触发告警。

二、Redfish与Zabbix集成的技术栈选择

本次示例采用Python作为主要技术栈，原因如下：

Python有成熟的HTTP请求库（如requests），适合与Redfish API交互。
Zabbix支持自定义脚本监控，Python可以轻松集成到Zabbix Agent或Zabbix Sender。
Python代码可读性强，便于维护和扩展。

示例1：使用Python获取Redfish数据

import requests
import json

# Redfish API端点（以Dell iDRAC为例）
REDFISH_URL = "https://<iDRAC_IP>/redfish/v1/Systems/System.Embedded.1"
USERNAME = "root"
PASSWORD = "calvin"

# 发起GET请求获取系统信息
def get_system_info():
    try:
        response = requests.get(
            REDFISH_URL,
            auth=(USERNAME, PASSWORD),
            verify=False  # 忽略SSL证书验证（生产环境建议启用）
        )
        response.raise_for_status()  # 检查HTTP错误
        return response.json()
    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
        return None

# 解析CPU温度
def parse_cpu_temp(data):
    if not data:
        return None
    # 假设返回数据中包含CPU温度（具体路径需根据厂商文档调整）
    return data.get("Oem", {}).get("Dell", {}).get("CPU1Temp", "N/A")

# 主程序
if __name__ == "__main__":
    system_data = get_system_info()
    cpu_temp = parse_cpu_temp(system_data)
    print(f"当前CPU温度: {cpu_temp}°C")

注释说明：

REDFISH_URL需要替换为实际的iDRAC IP地址。
Dell iDRAC的Redfish路径可能因版本不同而变化，需参考厂商文档。
生产环境应启用SSL证书验证以提高安全性。

三、Zabbix监控项配置

示例2：创建Zabbix自定义监控项

在Zabbix Agent配置文件（如zabbix_agentd.conf）中添加以下内容：

# 自定义监控项：CPU温度
UserParameter=redfish.cpu.temp,python3 /opt/zabbix/scripts/redfish_cpu_temp.py

然后创建脚本/opt/zabbix/scripts/redfish_cpu_temp.py：

import sys
from example1 import get_system_info, parse_cpu_temp  # 复用之前的函数

if __name__ == "__main__":
    data = get_system_info()
    temp = parse_cpu_temp(data)
    print(temp if temp is not None else "ERROR")

示例3：Zabbix前端配置

登录Zabbix Web界面，进入Configuration > Hosts。
选择目标主机，点击Items，然后Create Item。
填写以下信息：
- Name: CPU Temperature
- Key: redfish.cpu.temp
- Type: Zabbix agent
- Update interval: 30s

四、告警阈值设置与触发动作

示例4：设置CPU温度告警

在Zabbix中创建触发器：

进入Configuration > Hosts > Triggers。
点击Create Trigger，填写以下信息：
- Name: CPU温度过高
- Expression: {HOSTNAME:redfish.cpu.temp.last()} > 75
- Severity: High

示例5：配置告警动作

进入Configuration > Actions。
创建新动作，设置条件：
- Trigger = CPU温度过高
在操作选项卡中，配置告警通知方式（如邮件、Slack等）。

五、技术优缺点分析

优点

统一接口：Redfish标准化了硬件管理API，避免厂商锁定。
实时性：Zabbix支持高频数据采集，适合关键硬件监控。
灵活性：可自定义监控项和告警规则，适应不同场景。

缺点

依赖厂商实现：不同厂商的Redfish API可能有差异。
性能开销：高频请求可能对iDRAC或BMC造成压力。

六、注意事项

安全性：确保Redfish API使用HTTPS并限制访问IP。
错误处理：脚本中需加入重试机制，避免网络抖动导致误告警。
文档参考：不同厂商的Redfish路径可能不同，需查阅官方文档。

七、总结

通过Redfish与Zabbix集成，我们实现了硬件监控数据的自动上报和告警。这种方案特别适合需要监控多品牌服务器的企业环境。虽然配置过程有一定技术门槛，但一旦完成，运维效率将大幅提升。

未来可以进一步探索：

批量部署监控脚本（如使用Ansible）。
结合Grafana展示硬件监控数据。

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。