项目告警

概述

为了使您的集群和应用程序保持健康,并推动您的组织生产力向前发展,您需要随时了解集群和项目中发生的事件,包括计划内和计划外的事件。当事件发生时,您的告警会被触发,并向您发送通知。然后,如果有必要,您可以通过纠正行动进行跟进。

通知器和告警建立在Prometheus Alertmanager之上。利用这些工具,Rancher 可以通知 集群所有者项目所有者 他们需要处理的事件。

在接收告警之前,必须在集群级别配置一个或多个 通知

只有管理员集群所有者或成员,或者项目所有者可以管理项目提醒。

告警范围

告警的范围可以在集群级别或项目级别设置。

在项目级别,Rancher 会监控特定的部署,并在发生以下几种事件时发送告警:

  • 部署不可用
  • 工作负载的状态发生变化
  • Pod 状态发生变化
  • Prometheus 表达方式超过了设定的阈值

默认项目级警报

当你为项目启用监控时,会提供一些项目级的告警。如果在集群级别为这些告警配置了通知,您就可以接收这些告警。

告警说明
Less than half workload available如果只有不到一半的工作负载可用,就会触发关键告警,其依据是键为app,值为workload的工作负载。
Memory usage close to the quota如果工作负载的内存使用量超过了为工作负载设置的内存资源配额,就会触发警告告警。如果您进入安全和主机配置选项卡下的工作负载,您可以在 Rancher 用户界面中看到内存限制。

关于其他默认告警的信息,请参考集群级告警一节。

添加项目告警

前提条件:在接收项目提醒之前,您必须添加一个 notifier。

  1. 全局视图中,导航到您要配置项目告警的项目。选择工具 > 告警。在 v2.2.0 之前的版本中,您可以选择资源 > 告警

  2. 单击添加告警组

  3. 为告警输入描述其目的的名称,您可以为不同目的的告警规则分组。

  4. 根据您要创建的告警类型,完成以下指令子集之一。

pod 告警

该告警类型监控特定 pod 的状态。

  1. 选择 Pod 选项,然后从下拉列表中选择一个 pod。

  2. 选择触发告警的 pod 状态:

    • 未运行
    • 未安排
    • 最近 x 分钟重启 y 次
  3. 选择告警的紧急程度。选项包括:

    • critical:最紧急
    • warning:正常紧急状态
    • info:最不紧急

    根据 pod 状态选择告警的紧急程度。例如,对于作业结束后停止运行的作业 pod,选择 Info。但是,如果一个重要的 pod 没有被调度,可能会影响操作,因此选择 Critical

  4. 配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。配置特定规则时,可以禁用这些高级选项。

    • 等待时间:在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
    • 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
    • 发送重复告警间隔时间:在向包含已触发告警的组发送告警前需要等待多长时间,默认为 1 小时。

工作负载告警

该告警类型监控工作负载的可用性。

  1. 选择 Workload 选项,然后从下拉菜单中选择一个工作负载。

  2. 选择可用性百分比。当工作负载在您的集群节点上的可用性下降到低于设定的百分比时,将触发告警。

  3. 选择告警的紧急程度:

    • critical:最紧急。
    • warning:正常紧急状态。
    • info:最不紧急。
  4. 配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。您可以在配置特定规则时禁用这些高级选项。

    • 等待时间:在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
    • 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
    • 发送重复告警间隔时间:在发送已添加到包含已触发告警的组的告警前要等待多长时间,默认为 1 小时。

worload selector 告警

此告警类型可监控您指定的标记为标签的所有工作负载的可用性。

  1. 选择工作负载选择器选项,然后单击添加选择器,输入标签的键值对。如果其中一个工作负载降至低于您的规格,则会触发告警。此标签应应用于您的一个或多个工作负载。

  2. 选择告警的紧急程度。

    • critical:最紧急
    • warning:正常紧急状态
    • info:最不紧急

    根据您选择的百分比和工作量的重要性选择告警的紧急程度。

  3. 配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。您可以在配置特定规则时禁用这些高级选项。

    • 等待时间。在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
    • 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
    • 发送重复告警间隔时间:在向包含已触发告警的组发送告警前需要等待多长时间,默认为 1 小时。

参数表达式告警

从 v2.2.4 开始提供。

如果启用了项目监控,该告警类型可以监控 Prometheus 表达式查询的超载情况。

  1. 输入或选择一个表达式,下拉显示来自 Prometheus 的原始指标,包括。
  1. 选择比较:
  • 等于:当表达式的值等于阈值时,触发告警。
  • 不等于:当表达式的值不等于阈值时,触发告警。
  • 大于:当表达式的值大于阈值时触发告警。
  • 小于:当表达式的值等于或小于阈值时,触发告警。
  • 大于或等于:当表达式的值大于或等于阈值时触发告警。
  • 小于或等于:当表情值小于或等于阈值时,触发告警。
  1. 1.输入阈值,当表达式的值超过阈值时触发告警。

  2. 选择一个比较

  3. 选择持续时间,当表达式的值超过阈值时,触发告警。

  4. 选择告警的紧急程度。

    • critical:最紧急

    • warning:正常紧急状态

    • info:最不紧急

      根据告警对操作的影响,选择告警的紧急程度。例如,当容器内存接近极限的表达式提高到 60%以上时触发的告警认为是info的紧急程度,但提高到 95%左右则认为是critical的紧急程度。

  5. 配置高级选项。默认情况下,以下选项将适用于组内的所有告警规则。您可以在配置特定规则时禁用这些高级选项。

    • 等待时间:在最初发送之前,等待多长时间来缓冲同一组的告警,默认为 30 秒。
    • 间隔时间:在发送告警前等待多长时间,默认为 30 秒。在发送已添加到包含已发射的告警的组的告警前要等待多长时间,默认为 30 秒。
    • 发送重复告警间隔时间:在发送已被添加到包含已触发告警的组的告警前需要等待多长时间,默认为 1 小时。
  6. 继续向组中添加更多告警规则

  7. 最后,选择向你发送告警的通知

    • 你可以设置多个通知器。
    • 你可以随时更改通知者的收件人。

结果:您的告警已被配置。当告警被触发时,将发送一个通知。

管理项目告警

要管理项目告警,请浏览到您要管理告警的项目。然后选择工具 > 告警。在 v2.2.0 之前的版本中,您可以选择资源 > 告警。您可以执行以下 操作:

  • 启用或停用告警
  • 编辑告警设置
  • 删除不必要的告警
  • 将已触发的告警设置为静音
  • 将已静的告警设置为正常
最后由 yzeng25更新 于