告警规则

功能概述

运维平台 1.4.0 起内置自研告警子系统，告警规则在「告警管理 → 告警规则」页面以原生界面配置，无需编写 PromQL 即可对常见场景创建告警（也支持自定义 PromQL）。

告警配置涉及阈值设定与通知策略，建议由运维技术人员负责。不合理的配置可能导致误报或漏报，建议先在测试环境验证后再应用到生产。

监控类型

告警规则页按监控类型分 Tab，其中中间件类型仅在数据源启用后显示：

Tab	监控内容	显示条件
基础资源	CPU / 内存 / 磁盘等主机与中间件指标（基于 Prometheus），支持自定义 PromQL	始终显示
端口	TCP 端口连通性探测	始终显示
SSL	HTTPS 证书有效期检查	始终显示
Kafka 堆积	消费组 Lag 积压监控	已启用 Kafka 数据源
Kafka 重平衡	消费组频繁重平衡检测	已启用 Kafka 数据源
MongoDB	连接数 / 复制延迟等 MongoDB 专项监控	已启用 MongoDB 数据源
MySQL	连接数 / 慢查询等 MySQL 专项监控	已启用 MySQL 数据源

配置项	说明
任务名称	唯一且具描述性的名称，如 `生产主机 CPU 使用率过高`
数据源	选择监控的目标实例
指标分类 / 指标	从内置指标列表选择，或选择「自定义 PromQL」直接编写表达式（支持预览查询结果）
告警阈值	运算符（大于 / 小于等）+ 阈值
检查频率	多久执行一次检查
持续时间	指标连续超过阈值多久后才进入告警（Firing），避免瞬时抖动误报
恢复持续	指标连续恢复正常多久后才判定为恢复（Recovered）
通知渠道	绑定通知渠道，可选；不绑定则只在平台内记录
告警备注	通知消息中附带的说明文字，可选

内置降噪

告警引擎内置降噪状态机：同一告警持续触发时不会重复轰炸通知，状态变化（预警 → 告警 → 恢复）才会推送，无需额外配置。