Grafana-03-告警-分组告警通知

Grafana-03-告警-分组告警通知

分组告警通知 (Group Alert Notifications)

定义

分组功能通过将相关的告警实例合并为一条简洁的通知,来显著减少通知噪音

工作原理

分组配置基础

  • 配置基础:在通知策略中通过配置标签实现分组
  • 分组逻辑:通知策略会检查告警实例携带的标签进行匹配分组,所有共享相同指定标签值的告警实例,将被归入同一个组,并发送一条合并通知。

标签类型与作用

告警实例的标签是分组的关键依据,主要分为三类:

标签类型 来源 说明 示例
保留标签 Grafana 自动生成 系统预设的元数据标签。 alertname="CPU使用率过高" grafana_folder="生产环境仪表板"
用户配置标签 用户在告警规则中手动添加 用于自定义分类和优先级。 severity="critical" priority="P1" team="backend"
查询标签 数据源查询返回 从监控数据中继承的维度标签。 region="us-east-1" service="payment-api" environment="prod"

定时选项控制

这三个选项共同决定了分组通知的发送节奏,通常按层级配置。

选项 作用 默认值 场景说明
分组等待 在发送第一个通知前,等待新告警加入同一组的时间。 30s 一个告警触发后,等待30秒,看是否有同组其他告警(如同一服务的其他实例)也触发,然后一并通知。
分组间隔 不同分组通知之间的最短等待时间。 5m 即使有多个不同的告警组同时触发,通知系统每分钟最多处理一个组,防止多个组同时触发导致”通知风暴”。
重复间隔 对于状态未改变(未解决告警,持续触发)的同一个告警组,重复发送提醒通知的间隔时间。 4h 对于持续了4小时仍未解决的CPU过载告警组,每隔4小时重新发送一次提醒,直到问题解决。

创建分组告警

配置通知策略

配置告警规则

作者

bufx

发布于

2025-12-27

更新于

2025-12-28

许可协议