Observability
Alerting
Das Alerting-System basiert auf dem Prometheus Alertmanager. Er verarbeitet Alarme, die durch Metriken in Ihren Clustern ausgelöst werden, und leitet sie an die zuständigen Teams weiter.
Konfiguration
Alarmierungsregeln definieren Sie deklarativ über die PrometheusRule Resource.
Beispiel-Regel
Eine Regel, die alarmiert, wenn example-app länger als 1 Minute nicht erreichbar ist:
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
labels:
prometheus: k8s
role: alert-rules
name: example-app-rules
spec:
groups:
- name: example-app
rules:
- alert: ExampleAppDown
annotations:
message: Example App is down (> 1 min).
expr: |
up{job="example-app"} == 0
for: 1m
labels:
severity: criticalWorkflow
Regeln definieren
Erstellen Sie PrometheusRule Objekte mit PromQL-Ausdrücken, um kritische Zustände zu beschreiben.
Alertmanager Routing
Konfigurieren Sie Empfänger (Receivers) wie Slack, E-Mail, PagerDuty oder OpsGenie im Alertmanager, um sicherzustellen, dass Alarme ankommen.
Tests
Simulieren Sie Ausfälle, um die gesamte Meldekette – von der Metrik über den Alert bis zur Benachrichtigung – zu verifizieren.