In den ersten drei Monaten, in denen ich OpenClaw betrieben habe, war meine Überwachungsstrategie: Checke das Terminal alle paar Stunden und hoffe, dass nichts brennt. Spoiler: Manchmal brannte es, und ich wusste es erst, als es mir jemand sagte.
Dann habe ich ein Grafana-Dashboard eingerichtet, und es war wie das erste Mal, als ich eine Brille aufsetzte. Plötzlich konnte ich alles sehen — Antwortzeiten, Tokenverbrauch, Fehlerquoten, Agentenaktivität — alles an einem Ort, in Echtzeit, mit schönen Grafiken, die mich fühlen lassen, als würde ich ein Raumschiff steuern.
Hier ist, wie ich es aufgebaut habe, was ich verfolge und warum es wichtiger ist, als du denkst.
Warum ein Dashboard?
„Logging ist genug“ habe ich mir vor dem Dashboard gesagt. Es ist nicht genug. Protokolle sagen dir, was passiert ist, nachdem sich jemand beschwert hat. Ein Dashboard sagt dir, was passiert, bevor es jemand bemerkt.
Drei Dinge, die mein Dashboard erfasst hat, die Logs allein nicht erkannt hätten:
Allmähliche Verschlechterung der Antwortzeit. Über zwei Wochen stieg die durchschnittliche Antwortzeit von 2,3 Sekunden auf 4,8 Sekunden. Der Anstieg war zu allmählich, um ihn in einzelnen Interaktionen zu bemerken, aber die Trendlinie im Dashboard war offensichtlich falsch. Grundursache: Ein wachsender Gesprächskontext, der nicht beschnitten wurde.
Spike bei den Tokenkosten. An einem Dienstag sprang mein täglicher Tokenverbrauch um das Dreifache. Nicht wegen mehr Anfragen — sondern aufgrund längerer Antworten. Eine Änderung, die ich am Tag zuvor vorgenommen hatte, führte dazu, dass das Modell viel ausführlichere Ausgaben erzeugte als beabsichtigt. Das Dashboard stellte es innerhalb weniger Stunden fest; ansonsten hätte ich es bemerkt, als die monatliche Rechnung eintraf.
Stille Cron-Job-Fehler. Zwei geplante Jobs waren eine Woche lang stillschweigend fehlgeschlagen. Das Dashboard zeigte, dass das erwartete Muster (tägliche Ausführungsspitzen zu bestimmten Zeiten) Lücken hatte. Ohne das visuelle Muster hätte ich es vielleicht eine weitere Woche lang nicht bemerkt.
Das Setup
Stack: Prometheus zur Metrikensammlung, Grafana zur Visualisierung, Node Exporter für Systemmetriken. Gesamtaufwand: etwa 3 Stunden. Gesamtkosten: kostenlos (self-hosted) oder 15 $/Monat (Grafana Cloud Kostenlos-Tarif deckt die meisten Bedürfnisse ab).
Wenn du bereits einen VPS für OpenClaw nutzt, kannst du Grafana auf demselben Server betreiben. Mein Setup betreibt Prometheus und Grafana auf demselben VPS für 20 $/Monat wie OpenClaw, ohne merkliche Leistungseinbußen.
Metriken aus OpenClaw abrufen: Die Protokolle von OpenClaw sind die primäre Datenquelle. Ich habe ein einfaches Skript geschrieben, das Protokolldateien analysiert und Metriken als Prometheus-Endpunkt verfügbar macht. Die wichtigsten Metriken, die extrahiert werden sollen:
– Anfrageanzahl (gesamt und pro Typ)
– Antwortzeit (Durchschnitt, p95, p99)
– Tokenverbrauch (Eingabe und Ausgabe, pro Anfrage)
– Fehleranzahl (nach Typ)
– Aktive Sitzungen
– Ausführungsstatus der Cron-Jobs
Mein Dashboard-Layout
Ich habe vier Reihen:
Reihe 1: Gesundheit auf einen Blick. Vier große Zahlen: aktuelle Antwortzeit, Anfragen in der letzten Stunde, Fehlerquote und geschätzte tägliche Kosten. Grün, wenn alles normal ist, gelb, wenn es erhöht ist, rot, wenn etwas Aufmerksamkeit benötigt. Ich schaue mir diese Reihe 10 Mal am Tag an.
Reihe 2: Trends. Zeitreihendiagramme für Antwortzeit, Anfragenvolumen und Tokenverbrauch der letzten 24 Stunden und 7 Tage. Hier entdecke ich allmähliche Verschlechterungen und ungewöhnliche Muster.
Reihe 3: Kosten. Tokenverbrauch aufgeschlüsselt nach Modell, Aufgabentyp und Stunde. Eine tägliche Gesamtsumme im Vergleich zum Budget. Diese Reihe hat mir Hunderte von Dollar gespart, indem sie Kostenanomalien frühzeitig erkannt hat.
Reihe 4: Agentenaktivität. Welche Agenten aktiv sind, woran sie arbeiten, die Ausführungshistorie der Cron-Jobs und kürzliche Fehler mit Details. Dies ist die Debugging-Reihe — ich schaue sie mir nur an, wenn etwas nicht stimmt.
Die wirklich wichtigen Warnungen
Ich habe 6 Warnungen eingerichtet. Nach einem Monat Feintuning habe ich 2 entfernt, die zu laut waren, und die Schwellenwerte der verbleibenden 4 angepasst.
Warnung 1: Antwortzeit > 10 Sekunden. Diese wird ausgelöst, wenn die p95-Antwortzeit über 10 Sekunden in einem 5-Minuten-Fenster steigt. Bedeutet normalerweise, dass die AI-API Probleme hat oder mein Kontext zu groß ist.
Warnung 2: Fehlerquote > 5 %. Mehr als 5 % der fehlgeschlagenen Anfragen bedeuten, dass etwas systematisch falsch ist, nicht nur gelegentliche API-Probleme.
Warnung 3: Tägliche Kosten über 2x Durchschnitt. Erkennt Ausreißer und unerwartete Verbrauchsspitzen, bevor sie teuer werden.
Warnung 4: Cron-Job verpasste Ausführung. Wenn ein geplanter Cron-Job innerhalb von 30 Minuten nach seiner geplanten Zeit nicht ausgeführt wird, stimmt etwas nicht.
Diese vier Warnungen sind der richtige Ausgleich für mein Setup. Genug, um echte Probleme zu erfassen. Nicht so viele, dass ich beginne, sie zu ignorieren.
Was ich überspringen würde
Per-Anfrage-Dashboards. Ich habe zunächst ein Panel erstellt, das jede einzelne Anfrage anzeigte. Es war etwa einen Tag lang interessant, dann wurde es zur Lärmbelastung. Aggregierte Metriken sind nützlicher als einzelne Datenpunkte zur Überwachung.
Modellvergleichspanels. Ich habe Panels erstellt, die Claude vs. GPT-4 Qualitätsbewertungen vergleichen. Die Daten waren interessant, aber nicht umsetzbar — ich hatte bereits entschieden, welches Modell ich verwenden wollte, und das Dashboard hat diese Entscheidung nicht geändert.
Anspruchsvolle Visualisierungen. Grafana kann wunderschöne Dashboards mit Messgeräten, Heatmaps und Flussdiagrammen erstellen. Widerstehe dem Drang. Einfache Liniendiagramme und große Zahlen sind auf einen Blick lesbarer, was der ganze Sinn ist.
Die ROI-Berechnung
Einrichtungszeit: 3 Stunden.
Monatliche Wartung: 30 Minuten (Dashboards aktualisieren, Warnungen anpassen).
Einsparungen durch frühzeitiges Erkennen von Problemen: geschätzte 200-300 $/Monat an verhinderten Kostenüberschreitungen und reduzierter Ausfallzeit.
Das Dashboard hat sich im ersten Monat ausgezahlt. Wenn du OpenClaw (oder ein beliebiges AI-System) ohne Beobachtbarkeit betreibst, fliegst du blind. Es könnte sein, dass du gut fliegst. Aber wenn nicht, wirst du es erst wissen, wenn du bereits abgestürzt bist.
🕒 Published: