跳到主要内容

监控架构

概述

运维平台的监控能力基于 Prometheus v3Grafana v11 构建,提供高效、稳定的数据采集、存储及可视化解决方案,全面满足各类基础设施和应用的监控需求。

架构图

架构介绍

数据采集

监控对象与 Exporter 组件

平台采用 Prometheus Exporter 机制,实现对关键基础设施及应用的全面数据采集。各 Exporter 组件负责将目标系统的监控指标以标准格式暴露给 Prometheus Server。

监控对象Exporter 组件GitHub 维护组织
主机系统Node ExporterPrometheus
消息队列Kafka Exporterdanielqsj
搜索引擎Elasticsearch ExporterPrometheus Community
缓存服务Redis ExporterOliver006
关系数据库MySQL ExporterPrometheus
文档数据库MongoDB ExporterPercona

采集策略

  • 主动拉取模式:Prometheus Server 根据预设配置周期性地从各 Exporter 端点拉取数据,确保数据的实时性与准确性。

数据存储与可视化

  • 数据存储:Prometheus TSDB(时间序列数据库)高效存储采集到的监控数据,支持数据压缩与快速查询。

  • 数据可视化:Grafana 提供丰富的可视化组件,支持多维度仪表盘定制和数据分析,帮助用户直观展示和洞察监控数据。

告警与通知

告警

  • 统一管理:通过 Grafana 配置告警规则,实现对异常情况的实时监控和自动告警。

  • 基于 PromQL:告警规则利用 PromQL 查询 Prometheus 中的监控数据,构建灵活的告警规则。

    • PromQL:Prometheus 查询语言(PromQL)允许用户针对时间序列数据进行高效查询和聚合,为监控分析和告警提供强大支持。

通知

  • 多渠道支持:系统支持邮件、钉钉、企业微信、Webhook 等多种告警通知方式,确保运维人员能够第一时间获取异常信息并及时响应。