In den ersten drei Betriebsmonaten von OpenClaw war meine Überwachungsstrategie: den Terminal alle paar Stunden zu überprüfen und zu hoffen, dass nichts brennt. Spoiler: Manchmal brannte es, und ich wusste es nicht, bis mir jemand davon erzählte.
Dann habe ich ein Grafana-Dashboard eingerichtet, und es war, als ob ich zum ersten Mal eine Brille aufsetzte. Plötzlich konnte ich alles sehen – Antwortzeiten, Token-Nutzung, Fehlerrate, Agentenaktivität – alles an einem Ort, in Echtzeit, mit schönen Grafiken, die mir das Gefühl gaben, ein Raumschiff zu steuern.
So habe ich es aufgebaut, was ich überwache und warum es wichtiger ist, als Sie denken.
Warum sich mit einem Dashboard beschäftigen?
„Die Protokolle reichen aus“, dachte ich mir vorher. Das ist nicht genug. Protokolle sagen Ihnen, was passiert ist, nachdem sich jemand beschwert hat. Ein Dashboard zeigt Ihnen, was passiert, bevor es jemand bemerkt.
Drei Dinge, die mein Dashboard erkannt hat, die die Protokolle allein nicht erfasst hätten:
Schleichende Verschlechterung der Antwortzeiten. Über zwei Wochen stieg die durchschnittliche Antwortzeit von 2,3 Sekunden auf 4,8 Sekunden. Der Anstieg war zu schleichend, um in einzelnen Interaktionen bemerkt zu werden, aber die Trendlinie im Dashboard war eindeutig fehlerhaft. Ursachen: Ein wachsender Gesprächskontext, der nicht angepasst wurde.
Spitzenkosten von Tokens. An einem Dienstag verdreifachte sich meine tägliche Token-Nutzung. Nicht wegen mehr Anfragen – wegen längerer Antworten. Eine Änderung des Prompts, die ich am Tag zuvor vorgenommen hatte, führte dazu, dass das Modell viel ausführlichere Ausgaben als erwartet erzeugte. Das Dashboard erkannte das innerhalb von Stunden; andernfalls wäre mir das erst aufgefallen, als die monatliche Rechnung eintraf.
Stille Fehler bei Cron-Jobs. Zwei geplante Aufgaben schlugen seit einer Woche still heimlich fehl. Das Dashboard zeigte, dass das erwartete Muster (tägliche Ausführungs-Peaks zu bestimmten Zeiten) Lücken aufwies. Ohne das visuelle Modell hätte ich es vielleicht eine weitere Woche nicht bemerkt.
Die Konfiguration
Technologie-Stack: Prometheus zur Metrik-Sammlung, Grafana zur Visualisierung, Node Exporter für Systemmetriken. Gesamte Einrichtungszeit: etwa 3 Stunden. Gesamtkosten: kostenlos (selbst gehostet) oder 15 $/Monat (der kostenlose Plan von Grafana Cloud deckt die meisten Anforderungen ab).
Wenn Sie bereits einen VPS für OpenClaw verwenden, können Sie Grafana auf demselben Server betreiben. Meine Konfiguration führt Prometheus und Grafana auf demselben VPS für 20 $/Monat aus, ohne merkliche Auswirkungen auf die Leistung.
Extraktion der Metriken von OpenClaw: Die Protokolle von OpenClaw sind die Hauptdatenquelle. Ich habe ein einfaches Skript geschrieben, das die Protokolldateien analysiert und die Metriken als Prometheus-Endpunkt bereitstellt. Die wichtigsten Metriken, die extrahiert werden sollten:
– Anzahl der Anfragen (gesamt und nach Typ)
– Antwortzeiten (Durchschnitt, p95, p99)
– Token-Nutzung (Eingang und Ausgang, nach Anfrage)
– Anzahl der Fehler (nach Typ)
– Aktive Sitzungen
– Status der Ausführung der Cron-Jobs
Das Layout meines Dashboards
Ich habe vier Zeilen:
Zeile 1: Gesundheit auf einen Blick. Vier große Zahlen: aktuelle Antwortzeit, Anfragen in der letzten Stunde, Fehlerrate und geschätzte tägliche Kosten. Grün, wenn normal, gelb, wenn hoch, rot, wenn etwas Aufmerksamkeit erfordert. Ich schaue mir diese Zeile 10 Mal am Tag an.
Zeile 2: Trends. Zeitliche Grafiken für Antwortzeiten, Anfragenvolumen und Token-Nutzung in den letzten 24 Stunden und 7 Tagen. Hier erkenne ich schleichende Verschlechterungen und ungewöhnliche Muster.
Zeile 3: Kosten. Detaillierte Token-Nutzung nach Modell, nach Aufgabenart und nach Stunde. Ein kumulierter Tagesgesamtbetrag im Vergleich zum Budget. Diese Zeile hat mir Hunderte von Dollar gespart, indem sie schnell Kostenanomalien erkannt hat.
Zeile 4: Agentenaktivität. Welche Agenten aktiv sind, woran sie arbeiten, Historie der Ausführung der Cron-Jobs und aktuelle Fehler mit Details. Das ist die Debugging-Zeile — ich schaue sie mir nur an, wenn etwas nicht stimmt.
Die wirklich wichtigen Warnungen
Ich habe 6 Warnungen konfiguriert. Nach einem Monat Feinabstimmung habe ich 2 entfernt, die zu laut waren, und die Schwellenwerte der verbleibenden 4 angepasst.
Warnung 1: Antwortzeit > 10 Sekunden. Diese wird ausgelöst, wenn die Antwortzeit p95 10 Sekunden in einem 5-Minuten-Fenster überschreitet. Das bedeutet normalerweise, dass die AI-API Probleme hat oder dass mein Kontext zu groß ist.
Warnung 2: Fehlerrate > 5%. Mehr als 5 % der fehlgeschlagenen Anfragen bedeutet, dass etwas systematisch falsch ist und nicht nur gelegentliche Fehler der API.
Warnung 3: Tägliche Kosten über 2x dem Durchschnitt. Erkennt unkontrollierte Schleifen und unerwartete Nutzungsspitzen, bevor sie teuer werden.
Warnung 4: Verpasste Ausführung eines Cron-Jobs. Wenn ein erwarteter Cron-Job nicht innerhalb von 30 Minuten nach der geplanten Zeit ausgeführt wird, stimmt etwas nicht.
Diese vier Warnungen bilden das richtige Gleichgewicht für meine Konfiguration. Genug, um echte Probleme zu erfassen. Nicht so viele, dass ich anfange, sie zu ignorieren.
Was ich vermeiden würde
Dashboards nach Anfrage. Zuerst habe ich ein Panel erstellt, das jede einzelne Anfrage anzeigte. Es war etwa einen Tag lang interessant, dann wurde es zum Rauschen. Aggregierte Metriken sind nützlicher als individuelle Daten zur Überwachung.
Vergleichspanels von Modellen. Ich habe Panels erstellt, die die Qualitätswerte von Claude und GPT-4o verglichen. Die Daten waren interessant, aber nicht umsetzbar – ich hatte bereits entschieden, welches Modell ich verwenden wollte, und das Dashboard hat diese Entscheidung nicht verändert.
Komplizierte Visualisierungen. Grafana kann schöne Dashboards mit Messgeräten, Heatmaps und Flussdiagrammen erstellen. Widerstehen Sie der Versuchung. Einfache Liniendiagramme und große Zahlen sind auf den ersten Blick besser lesbar, was das Ziel ist.
Die Berechnung des ROI
Einrichtungszeit: 3 Stunden.
Monatliche Wartung: 30 Minuten (Aktualisierung der Dashboards, Feinabstimmung der Warnungen).
Einsparungen durch frühzeitige Problemerkennung: geschätzt auf 200-300 $/Monat an vermiedenen Kosten und reduzierter Ausfallzeit.
Das Dashboard hat sich im ersten Monat amortisiert. Wenn Sie OpenClaw (oder irgendein KI-System) ohne Sichtbarkeit verwenden, fliegen Sie blind. Sie könnten richtig fliegen. Aber wenn das nicht der Fall ist, werden Sie es nicht wissen, bis Sie bereits gegen die Wand geflogen sind.
🕒 Published: