跳到主要内容

告警规则

功能概述

运维平台 1.4.0 起内置自研告警子系统,告警规则在「告警管理 → 告警规则」页面以原生界面配置,无需编写 PromQL 即可对常见场景创建告警(也支持自定义 PromQL)。

告警配置涉及阈值设定与通知策略,建议由运维技术人员负责。不合理的配置可能导致误报或漏报,建议先在测试环境验证后再应用到生产。

监控类型

告警规则页按监控类型分 Tab,其中中间件类型仅在数据源启用后显示:

Tab监控内容显示条件
基础资源CPU / 内存 / 磁盘等主机与中间件指标(基于 Prometheus),支持自定义 PromQL始终显示
端口TCP 端口连通性探测始终显示
SSLHTTPS 证书有效期检查始终显示
Kafka 堆积消费组 Lag 积压监控已启用 Kafka 数据源
Kafka 重平衡消费组频繁重平衡检测已启用 Kafka 数据源
MongoDB连接数 / 复制延迟等 MongoDB 专项监控已启用 MongoDB 数据源
MySQL连接数 / 慢查询等 MySQL 专项监控已启用 MySQL 数据源

创建告警规则(以基础资源为例)

配置项说明
任务名称唯一且具描述性的名称,如 生产主机 CPU 使用率过高
数据源选择监控的目标实例
指标分类 / 指标从内置指标列表选择,或选择「自定义 PromQL」直接编写表达式(支持预览查询结果)
告警阈值运算符(大于 / 小于等)+ 阈值
检查频率多久执行一次检查
持续时间指标连续超过阈值多久后才进入告警(Firing),避免瞬时抖动误报
恢复持续指标连续恢复正常多久后才判定为恢复(Recovered)
通知渠道绑定通知渠道,可选;不绑定则只在平台内记录
告警备注通知消息中附带的说明文字,可选

告警状态

状态说明
预警(Pending)已超过阈值,但尚未满足「持续时间」
告警(Firing)超过阈值且满足持续时间,已发送通知
恢复(Recovered)从告警状态恢复正常,发送恢复通知
已暂停规则被手动暂停,不再调度检查

常用操作

  • 立即检查:跳过等待周期,立刻执行一次检查。
  • 暂停 / 启用:临时停止某条规则的调度(如计划内维护),替代了旧版本的「告警静默」功能。
  • 实例明细:查看规则匹配到的各实例当前值与状态,并支持按实例静默——只屏蔽个别实例的通知,规则整体继续生效。
  • 告警历史:查看该规则的历史触发记录,全局视图见告警历史
内置降噪

告警引擎内置降噪状态机:同一告警持续触发时不会重复轰炸通知,状态变化(预警 → 告警 → 恢复)才会推送,无需额外配置。