Linux 系统资源监控脚本开发：Python 与 Bash 实现自定义监控工具

引言

当我们的服务器深夜突然宕机时，当线上服务响应速度骤降时，当硬盘空间神秘消失时...作为运维人员总在期待有个贴心管家能实时汇报系统状态。今天我们就手把手打造这个智能管家，用两种最接地气的开发方式——Python和Bash脚本，构建个性化的系统监控工具。

一、应用场景全景

1.1 性能瓶颈定位

某游戏平台每天20点在线峰值期频繁卡顿，通过实时监控发现CPU利用率始终保持在98%以上，最终定位到积分计算模块的算法缺陷

1.2 异常行为侦测

某电商服务器连续三天凌晨出现内存泄漏，自定义监控脚本成功捕获到某个Python进程的内存占用呈线性增长态势

1.3 资源预警系统

某视频网站存储服务器设置当硬盘使用率超过85%时自动触发报警，避免因磁盘写满导致的直播中断事故

二、技术选型攻防战

2.1 Bash利刃出鞘

优势：

轻量如飞刀，无需任何额外依赖
直接调用系统原生指令（top/free/df）
适合快速验证的临时需求

劣势：

复杂数据处理如同在针尖跳舞
跨平台兼容性差
缺少高级数据结构支持

2.2 Python重剑无锋

优势：

psutil库堪比瑞士军刀的统一接口
跨平台部署如履平地
丰富的可视化与通知能力

劣势：

需预装Python环境
即时性稍逊于Bash
内存消耗相对较高

三、Bash监控实战

3.1 系统健康检查脚本

#!/bin/bash
# 监控间隔（秒）
INTERVAL=5

while true; do
    # 获取时间戳
    TIMESTAMP=$(date "+%Y-%m-%d %H:%M:%S")
    
    # CPU使用率（取第8个字段）
    CPU_USAGE=$(top -bn1 | grep "Cpu(s)" | sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | awk '{print 100 - $1}')
    
    # 内存统计（单位MB）
    MEM_TOTAL=$(free -m | awk '/Mem:/ {print $2}')
    MEM_USED=$(free -m | awk '/Mem:/ {print $3}')
    
    # 磁盘根分区使用率
    DISK_USAGE=$(df -h / | awk 'NR==2 {print $5}' | tr -d '%')
    
    # 输出监控日志
    echo "${TIMESTAMP} | CPU: ${CPU_USAGE}% | 内存: ${MEM_USED}/${MEM_TOTAL}MB | 磁盘: ${DISK_USAGE}%"
    
    sleep $INTERVAL
done

3.2 异常阈值报警增强版

# 在循环体内增加判断逻辑
if (( $(echo "$CPU_USAGE > 90" | bc -l) )); then
    wall "警告！CPU负载过高：${CPU_USAGE}%"
fi

if [ $DISK_USAGE -gt 85 ]; then
    echo "磁盘空间告急" | mail -s "存储警报" admin@example.com
fi

四、Python监控大师课

4.1 基础监控框架

import psutil
import time
from datetime import datetime

def system_dashboard(interval=5):
    """系统仪表盘生成器"""
    while True:
        # 时间戳（精确到毫秒）
        timestamp = datetime.now().strftime("%F %T.%f")[:-3]
        
        # CPU占用率（非阻塞模式）
        cpu_load = psutil.cpu_percent(interval=None)
        
        # 内存全景扫描
        mem = psutil.virtual_memory()
        
        # 磁盘核心分区监控
        disk = psutil.disk_usage('/')
        
        # 结构化日志记录
        log_msg = f"{timestamp} | CPU: {cpu_load}% | "
        log_msg += f"内存: {mem.used//1024**2}/{mem.total//1024**2}MB | "
        log_msg += f"磁盘: {disk.percent}%"
        
        print(log_msg)
        time.sleep(interval)

if __name__ == "__main__":
    system_dashboard()

4.2 可视化升级版

import matplotlib.pyplot as plt

def draw_trend(data):
    """绘制资源变化曲线"""
    plt.figure(figsize=(12,6))
    plt.plot([d['cpu'] for d in data], label='CPU负载')
    plt.plot([d['mem'] for d in data], label='内存占用')
    plt.ylim(0, 100)
    plt.title('系统资源趋势分析')
    plt.ylabel('百分比(%)')
    plt.xlabel('时间序列')
    plt.legend()
    plt.savefig('resource_trend.png')

五、工程化注意事项

权限的舞步
监控网络连接需要root权限，建议通过sudoers文件授权特定命令
性能的平衡术
调整采集间隔避免监控本身成为负担，生产环境建议≥10秒

日志的智慧
采用logrotate进行日志轮转，示例配置：

/var/log/monitor.log {
    daily
    rotate 7
    compress
    missingok
}

安全防护网
禁止在脚本中硬编码敏感信息，对监控数据做加密存储

六、技术方案抉择指南

推荐组合拳方案：

基础资源收集用Bash定期运行
数据分析与报警用Python实现
关键指标存储到时序数据库（如Prometheus）
使用Grafana搭建监控看板

七、技术总结

通过本文的实弹演练，我们掌握了两种各具特色的监控实现方案。Bash脚本像精准的手术刀，适合快速切入特定场景；Python则如同多功能工具箱，能够构建复杂的监控生态体系。无论选择哪种方案，核心都在于：准确捕获数据->智能分析判断->及时预警响应，这正是系统监控的黄金三角。

在实际运维中，建议将本文的示例代码作为积木块，根据具体业务需求进行组合扩展。比如增加进程监控模块，集成企业微信报警功能，或者添加自适应阈值调整算法等。期待各位读者能搭建出属于自己的智能运维管家！

敲码拾光专注于编程技术，涵盖编程语言、代码实战案例、软件开发技巧、IT前沿技术、编程开发工具，是您提升技术能力的优质网络平台。