保姆级教程：用Prometheus+AlertManager给你的服务器CPU、内存、磁盘装上“健康监测仪”

张

张建站

2026/6/5 10:29:36

10分钟阅读

保姆级教程：用Prometheus+AlertManager给你的服务器CPU、内存、磁盘装上“健康监测仪”

从零构建智能服务器健康监测系统PrometheusAlertManager实战指南想象一下医院的ICU病房——各种监测仪器实时追踪患者的心率、血压、血氧指标一旦某个参数超出安全范围就会立即触发警报。对于服务器系统而言CPU、内存和磁盘就是它的生命体征而PrometheusAlertManager正是最专业的医疗监测团队。本文将带你从零开始为你的服务器搭建一套会思考的预警系统。不同于简单的阈值报警我们将重点解决三个核心问题如何根据服务器角色设定合理的预警阈值如何避免狼来了式的误报如何构建一目了然的健康仪表盘无论你是个人项目开发者还是初创公司的技术负责人这套系统都能让你在服务器出现异常前就收到预警而不是在用户投诉后才发现问题。1. 监控系统架构设计与组件选型1.1 为什么选择PrometheusAlertManagerPrometheus已经成为云原生时代的监控事实标准相比传统监控工具它具有三大独特优势多维度数据模型所有监控数据都自动携带标签如instanceweb-server-1, envproduction可以灵活地进行聚合查询强大的查询语言PromQL支持复杂的实时计算例如过去5分钟CPU使用率的95分位数主动拉取被动推送双模式既支持定期抓取指标也支持通过PushGateway接收短期任务的数据AlertManager则是专门处理告警的大脑它提供了告警去重避免重复通知分组归类相关告警合并发送静默管理计划维护期间屏蔽告警多通道通知邮件、Slack、Webhook等1.2 系统组件交互流程完整的监控体系包含以下组件协同工作Node Exporter → Prometheus → AlertManager → 通知渠道 ↑ Grafana可视化表各组件功能说明组件端口功能描述配置文件Node Exporter9100采集主机指标无Prometheus9090存储分析指标prometheus.ymlAlertManager9093处理告警逻辑alertmanager.ymlGrafana3000数据可视化通过UI配置提示生产环境建议为每个组件配置systemd服务确保异常退出后自动重启2. 精准安装与配置避开初学者的那些坑2.1 二进制安装最佳实践从官网下载最新版本后建议遵循以下目录结构/opt/monitoring ├── prometheus │ ├── data # 时序数据库存储 │ ├── rules # 告警规则文件 │ └── prometheus.yml ├── alertmanager │ └── alertmanager.yml └── grafana创建专用的系统用户和权限sudo useradd --no-create-home --shell /bin/false prometheus sudo chown -R prometheus:prometheus /opt/monitoring/prometheus2.2 Prometheus核心配置详解修改prometheus.yml时特别注意这些关键参数global: scrape_interval: 15s # 抓取频率 evaluation_interval: 15s # 规则评估频率 rule_files: - rules/*.rules # 告警规则路径 alerting: alertmanagers: - static_configs: - targets: [localhost:9093] # AlertManager地址验证配置的正确性./promtool check config prometheus.yml2.3 Node Exporter的进阶采集项除了默认指标还可以通过collectors参数启用特殊监控./node_exporter \ --collector.systemd \ --collector.tcpstat \ --collector.processes常用采集器说明systemd监控服务单元状态filesystem各挂载点详细信息netdev网络接口流量统计diskstats磁盘IO性能指标3. 告警规则设计从机械阈值到智能预警3.1 不同服务器类型的黄金阈值告警阈值绝不是固定值需要根据服务器角色动态调整表推荐阈值参考需根据实际环境调整服务器类型CPU阈值内存阈值磁盘阈值持续时间Web前端80%85%90%5m数据库60%70%80%10m缓存服务90%95%85%2m批处理作业95%98%75%30m3.2 编写有逻辑的告警规则示例规则host.rules展示如何避免狼来了groups: - name: host.rules rules: - alert: HostCPU expr: | 100 * (1 - avg(irate(node_cpu_seconds_total{modeidle}[2m])) by(instance)) 80 and predict_linear(node_cpu_seconds_total{modeidle}[1h], 3600) 0 for: 5m labels: severity: critical annotations: summary: {{$labels.instance}}: 预测CPU即将满载 description: 当前使用率{{$value}}%且预测1小时后将耗尽空闲资源关键技巧使用predict_linear进行趋势预测组合多个条件避免瞬时抖动分级设置severitycritical/warning/info3.3 告警分级与抑制策略在alertmanager.yml中配置分级处理route: group_by: [alertname, cluster] group_wait: 30s group_interval: 5m repeat_interval: 4h routes: - match: severity: critical receiver: oncall-sms - match: severity: warning receiver: team-email inhibit_rules: - source_match: severity: critical target_match: severity: warning equal: [alertname, instance]注意抑制规则可以避免同时收到同一问题的多个级别告警4. 构建业务级监控仪表板4.1 Grafana面板设计原则优秀仪表板应该遵循30秒法则——运维人员30秒内必须能判断系统健康状况。推荐布局顶部关键SLO指标如可用性、错误率左侧资源使用率CPU/内存/磁盘趋势图中央业务核心指标QPS、响应时间右侧告警事件与日志关联4.2 导入优化过的仪表板模板使用Grafana官方ID号为1860的Node Exporter全指标仪表板# 通过Grafana API自动导入 curl -X POST \ -H Content-Type: application/json \ -d {dashboard: {id: 1860}, overwrite: true} \ http://admin:adminlocalhost:3000/api/dashboards/import4.3 关键PromQL查询示例内存使用率计算100 * (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes磁盘预测告警predict_linear(node_filesystem_free_bytes[6h], 86400) 0服务SLO计算sum(rate(http_requests_total{status~2..}[5m])) / sum(rate(http_requests_total[5m]))5. 生产环境优化实战经验5.1 性能调优参数在高负载环境中需要调整这些参数# prometheus.yml storage: tsdb: retention: 15d # 数据保留周期 wal_compression: true # 压缩WAL日志 # alertmanager.yml receivers: - name: high-priority webhook_configs: - send_resolved: true timeout: 10s # 网络超时设置5.2 监控系统自身的监控不要忘记监控监控系统本身关键指标包括prometheus_tsdb_head_samples_appended_total样本接收速率prometheus_target_interval_length_seconds实际抓取间隔alertmanager_notifications_failed_total通知失败次数5.3 灾备与高可用方案实现Prometheus高可用的两种方式联邦集群scrape_configs: - job_name: federate scrape_interval: 30s honor_labels: true metrics_path: /federate params: match[]: - {jobnode} static_configs: - targets: [prometheus-2:9090]Thanos方案全局查询视图长期存储到对象存储数据压缩与降采样在资源有限的情况下我通常建议初创公司先采用Prometheus定期备份的简化方案。曾经有个电商客户在促销期间因为监控系统自身OOM导致错过了数据库的异常增长这个教训让我们明白——监控系统必须比业务系统更稳定。

别再只用GCN了！用PyTorch实现DGCN处理有向图数据的保姆级教程

突破GCN局限：PyTorch实战有向图卷积网络DGCN在社交网络分析、金融交易图谱或知识图谱构建中，数据间的关联往往具有明确方向性。传统图卷积网络（GCN）在处理这类有向图数据时，就像用黑白电视观看4K影片——虽然能呈现内容…...

2026/6/5 10:28:55 阅读更多 →

即将截稿！6月会议合作期刊推荐，快速预审，优先见刊！

参加学术会议之外，再多一个发表机会对科研群体来说，参会交流并不只是为了将科研成果发表到会议论文集上。更受科研群体关注的是，在完成会议投稿之后，优秀论文还有机会进入国际优秀学术期刊的“绿色通道”，快速发表&a…...

2026/6/5 10:21:33 阅读更多 →

LLMDiRec：融合大语言模型与扩散模型的序列推荐系统

1. 项目概述：LLMDiRec的创新价值与技术定位在当今推荐系统领域，序列推荐（Sequential Recommendation）技术正面临一个关键瓶颈：传统基于ID嵌入的方法虽然能捕捉用户行为模式，却难以理解行为背后的语义意图。…...

2026/6/5 10:19:03 阅读更多 →

智能水印工具终极指南：如何批量为照片添加专业相机参数水印

智能水印工具终极指南：如何批量为照片添加专业相机参数水印【免费下载链接】semi-utils 一个批量添加相机机型和拍摄参数的工具，后续「可能」添加其他功能。项目地址: https://gitcode.com/gh_mirrors/se/semi-utils 还在为数百张照片手动添加相…...

2026/6/3 17:02:45 阅读更多 →

Go语言可扩展性设计：水平扩展

Go语言可扩展性设计：水平扩展1. 引言在互联网时代，业务的快速增长对系统的扩展性提出了极高的要求。水平扩展（Scale Out）作为分布式系统的核心设计理念，能够通过增加服务器节点来提升系统的整体处理能力。与垂直扩展&…...

2026/6/3 11:01:44 阅读更多 →

Claude Code Tool System 与 Permission 机制深度解析

代码解析 Claude Code Tool System 与 Permission 机制深度解析 0. 背景与定位 Claude Code 是一个运行在终端的 Agentic 编码工具，其核心能力来自工具系统（Tool System）——AI 通过调用工具与文件系统、Shell、网络、子 Agent 交互。而**权…...

2026/6/3 17:02:49 阅读更多 →