Alerting

Availability

Stage

Experimental

Requires

Das Alerting-System basiert auf dem Prometheus Alertmanager. Er verarbeitet Alarme, die durch Metriken in Ihren Clustern ausgelöst werden, und leitet sie an die zuständigen Teams weiter.

Konfiguration

Alarmierungsregeln definieren Sie deklarativ über die PrometheusRule Resource.

Beispiel-Regel

Eine Regel, die alarmiert, wenn example-app länger als 1 Minute nicht erreichbar ist:

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  labels:
    prometheus: k8s
    role: alert-rules
  name: example-app-rules
spec:
  groups:
  - name: example-app
    rules:
    - alert: ExampleAppDown
      annotations:
        message: Example App is down (> 1 min).
      expr: |
        up{job="example-app"} == 0
      for: 1m
      labels:
        severity: critical

Workflow

Regeln definieren

Erstellen Sie PrometheusRule Objekte mit PromQL-Ausdrücken, um kritische Zustände zu beschreiben.

Alertmanager Routing

Konfigurieren Sie Empfänger (Receivers) wie Slack, E-Mail, PagerDuty oder OpsGenie im Alertmanager, um sicherzustellen, dass Alarme ankommen.

Tests

Simulieren Sie Ausfälle, um die gesamte Meldekette – von der Metrik über den Alert bis zur Benachrichtigung – zu verifizieren.