项目告警
概述
为了使您的集群和应用程序保持健康,并推动您的组织生产力向前发展,您需要随时了解集群和项目中发生的事件,包括计划内和计划外的事件。当事件发生时,您的告警会被触发,并向您发送通知。然后,如果有必要,您可以通过纠正行动进行跟进。
通知器和告警建立在Prometheus Alertmanager之上。利用这些工具,Rancher 可以通知 集群所有者 和 项目所有者 他们需要处理的事件。
在接收告警之前,必须在集群级别配置一个或多个 通知。
只有管理员、集群所有者或成员,或者项目所有者可以管理项目提醒。
告警范围
告警的范围可以在集群级别或项目级别设置。
在项目级别,Rancher 会监控特定的部署,并在发生以下几种事件时发送告警:
- 部署不可用
- 工作负载的状态发生变化
- Pod 状态发生变化
- Prometheus 表达方式超过了设定的阈值
默认项目级警报
当你为项目启用监控时,会提供一些项目级的告警。如果在集群级别为这些告警配置了通知,您就可以接收这些告警。
告警 | 说明 |
---|---|
Less than half workload available | 如果只有不到一半的工作负载可用,就会触发关键告警,其依据是键为app ,值为workload 的工作负载。 |
Memory usage close to the quota | 如果工作负载的内存使用量超过了为工作负载设置的内存资源配额,就会触发警告告警。如果您进入安全和主机配置选项卡下的工作负载,您可以在 Rancher 用户界面中看到内存限制。 |
关于其他默认告警的信息,请参考集群级告警一节。
添加项目告警
前提条件:在接收项目提醒之前,您必须添加一个 notifier。
从全局视图中,导航到您要配置项目告警的项目。选择工具 > 告警。在 v2.2.0 之前的版本中,您可以选择资源 > 告警。
单击添加告警组。
为告警输入描述其目的的名称,您可以为不同目的的告警规则分组。
根据您要创建的告警类型,完成以下指令子集之一。
pod 告警
该告警类型监控特定 pod 的状态。
选择 Pod 选项,然后从下拉列表中选择一个 pod。
选择触发告警的 pod 状态:
- 未运行
- 未安排
- 最近 x 分钟重启 y 次
选择告警的紧急程度。选项包括:
- critical:最紧急
- warning:正常紧急状态
- info:最不紧急
根据 pod 状态选择告警的紧急程度。例如,对于作业结束后停止运行的作业 pod,选择 Info。但是,如果一个重要的 pod 没有被调度,可能会影响操作,因此选择 Critical。
配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。配置特定规则时,可以禁用这些高级选项。
- 等待时间:在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
- 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
- 发送重复告警间隔时间:在向包含已触发告警的组发送告警前需要等待多长时间,默认为 1 小时。
工作负载告警
该告警类型监控工作负载的可用性。
选择 Workload 选项,然后从下拉菜单中选择一个工作负载。
选择可用性百分比。当工作负载在您的集群节点上的可用性下降到低于设定的百分比时,将触发告警。
选择告警的紧急程度:
- critical:最紧急。
- warning:正常紧急状态。
- info:最不紧急。
配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。您可以在配置特定规则时禁用这些高级选项。
- 等待时间:在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
- 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
- 发送重复告警间隔时间:在发送已添加到包含已触发告警的组的告警前要等待多长时间,默认为 1 小时。
worload selector 告警
此告警类型可监控您指定的标记为标签的所有工作负载的可用性。
选择工作负载选择器选项,然后单击添加选择器,输入标签的键值对。如果其中一个工作负载降至低于您的规格,则会触发告警。此标签应应用于您的一个或多个工作负载。
选择告警的紧急程度。
- critical:最紧急
- warning:正常紧急状态
- info:最不紧急
根据您选择的百分比和工作量的重要性选择告警的紧急程度。
配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。您可以在配置特定规则时禁用这些高级选项。
- 等待时间。在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
- 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
- 发送重复告警间隔时间:在向包含已触发告警的组发送告警前需要等待多长时间,默认为 1 小时。
参数表达式告警
从 v2.2.4 开始提供。
如果启用了项目监控,该告警类型可以监控 Prometheus 表达式查询的超载情况。
- 输入或选择一个表达式,下拉显示来自 Prometheus 的原始指标,包括。
- 容器
- Kubernetes 资源
- 自定义
- 项目级 Grafana
- 项目级普罗米修斯
- 选择比较:
- 等于:当表达式的值等于阈值时,触发告警。
- 不等于:当表达式的值不等于阈值时,触发告警。
- 大于:当表达式的值大于阈值时触发告警。
- 小于:当表达式的值等于或小于阈值时,触发告警。
- 大于或等于:当表达式的值大于或等于阈值时触发告警。
- 小于或等于:当表情值小于或等于阈值时,触发告警。
1.输入阈值,当表达式的值超过阈值时触发告警。
选择一个比较。
选择持续时间,当表达式的值超过阈值时,触发告警。
选择告警的紧急程度。
critical:最紧急
warning:正常紧急状态
info:最不紧急
根据告警对操作的影响,选择告警的紧急程度。例如,当容器内存接近极限的表达式提高到 60%以上时触发的告警认为是info的紧急程度,但提高到 95%左右则认为是critical的紧急程度。
配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。您可以在配置特定规则时禁用这些高级选项。
- 等待时间:在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
- 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
- 发送重复告警间隔时间:在发送已被添加到包含已触发告警的组的告警前需要等待多长时间,默认为 1 小时。
继续向组中添加更多告警规则。
最后,选择向你发送告警的通知。
- 你可以设置多个通知器。
- 你可以随时更改通知者的收件人。
结果:您的告警已被配置。当告警被触发时,将发送一个通知。
管理项目告警
要管理项目告警,请浏览到您要管理告警的项目。然后选择工具 > 告警。在 v2.2.0 之前的版本中,您可以选择资源 > 告警。您可以执行以下 操作:
- 启用或停用告警
- 编辑告警设置
- 删除不必要的告警
- 将已触发的告警设置为静音
- 将已静的告警设置为正常