Die besten Praktiken für CI/CD von KI-Agenten sind nicht dieselben wie die traditionellen CI/CD-Praktiken für Software. Nach acht Monaten, in denen ich KI-Agenten in der Produktion betrieben habe, sind hier die Praktiken, die wirklich zählen — getestet durch reale Deployments und nicht durch theoretische Übungen.
Praxis 1: Versionieren Sie Alles, Einschließlich der Prompts
Ihr System-Prompt ist genauso entscheidend wie Ihr Quellcode. Eine Veränderung eines Wortes im Prompt kann jede Antwort des Agenten verändern. Trotzdem behandeln die meisten Teams die Prompts als informelle Konfiguration — spontan verändert, nicht versioniert, nicht überprüft.
Setzen Sie Ihre Prompts in ein Versionskontrollsystem. Überprüfen Sie die Änderungen der Prompts in den Pull-Requests. Taggen Sie die Versionen der Prompts neben den Versionen des Codes. Wenn in der Produktion etwas schiefgeht, müssen Sie wissen, welche Version des Prompts aktiv war.
Ich speichere die Prompts als Markdown-Dateien im selben Repository wie den Code des Agenten. Jede Änderung des Prompts erhält eine PR, eine Überprüfung und einen durchgeführten Verhaltens-Test.
Praxis 2: Verhaltenstests sind Nicht Verhandelbar
Code-Tests überprüfen die Logik. Verhaltenstests überprüfen, ob die KI korrekt agiert. Sie benötigen beides.
Mein Satz von Verhaltenstests umfasst 15 Testfälle, die folgende Aspekte abdecken: Rollen-Grenzen (bleibt der Agent in seinem Rahmen?), faktische Genauigkeit (gibt er korrekte Informationen an?), Fehlerbehandlung (geht er souverän mit fehlenden Daten um?), und den Ton (ist er angemessen für den Kontext?).
Jeder Test wird bei jedem PR ausgeführt. Die Pipeline blockiert das Mergen, wenn mehr als 2 Tests fehlschlagen. Dies hat in den letzten 4 Monaten 12 Regressionsfehler aufgedeckt, die von den Code-Tests übersehen worden wären.
Praxis 3: Trennen Sie Deployment und Veröffentlichung
Deployen Sie den Code, aktivieren Sie jedoch das neue Verhalten nicht, bis Sie es in der Produktion überprüft haben. Feature-Flags machen dies möglich. Deployen Sie am Montag, aktivieren Sie es für interne Nutzer am Dienstag, aktivieren Sie es für alle am Mittwoch.
Das ist besonders wichtig für KI-Agenten, da Verhaltensänderungen (aufgrund von Prompt- oder Modell-Updates) schwieriger vorherzusagen sind als Code-Änderungen. Die Trennung von Deployment und Veröffentlichung gibt Ihnen einen Puffer, um Überraschungen zu managen.
Praxis 4: Überwachen Sie das Verhalten, Nicht Nur die Verfügbarkeit
Traditionelle Überwachung: Ist der Dienst betriebsbereit? Ist die Antwortzeit akzeptabel? Ist die Fehlerquote niedrig?
Die KI-Überwachung ergänzt: Ist die Qualität der Antworten konsistent? Ist die Halluzinationsrate stabil? Sind die Nutzer zufrieden? Sind die Kosten vorhersehbar?
Ich messe ein „Qualitätsscore“, der berechnet wird, indem 10 % der Antworten stichprobenartig ausgewählt und nach Kriterien bewertet werden. Ein Rückgang des Qualitätsscores löst eine Warnung aus, selbst wenn der Dienst technisch in Ordnung ist.
Praxis 5: Automatisieren Sie die Wiederherstellung
Wenn beim Deployment etwas schiefgeht, zählt jede Minute. Manuelle Wiederherstellung bedeutet: das Problem feststellen, sich per SSH mit dem Server verbinden, sich an den Wiederherstellungsbefehl erinnern, diesen ausführen. Das dauert im besten Fall 5 bis 15 Minuten.
Automatisierte Wiederherstellung bedeutet: dass das Überwachungssystem das Problem erkennt (Spike in der Fehlerquote, Qualitätseinbruch), automatisch auf die vorherige Version zurückkehrt und Sie benachrichtigt, dass eine Wiederherstellung stattgefunden hat.
Meine automatisierte Wiederherstellung wird ausgelöst, wenn: die Fehlerquote 10 % für 3 Minuten übersteigt oder der Qualitätsscore unter 3/5 für 5 Minuten sinkt. Falsch-Positive sind selten (ungefähr einmal alle 2 Monate) und die Kosten eines Falsch-Positiven (eine unnötige Wiederherstellung und ein unnötiges Deployment) sind weit niedriger als die Kosten eines nicht behandelten echten Positiven.
Praxis 6: Halten Sie die Pipeline Schnell
Wenn die CI/CD-Pipeline 30 Minuten dauert, finden die Leute Wege, sie zu ignorieren. Halten Sie sie unter 15 Minuten für die gesamte Pipeline (Code-Tests + Verhaltenstests + Staging-Deployment). Meine Pipeline läuft in etwa 12 Minuten.
Die Verhaltenstests sind der Engpass – jeder erfordert einen API-Anruf zur KI. Parallelisieren Sie sie (führen Sie alle 15 Tests gleichzeitig aus, anstatt sie nacheinander durchzuführen) und setzen Sie angemessene Fristen (wenn ein Test in 60 Sekunden nicht abgeschlossen ist, schlägt er fehl).
Die Minimal Viable Pipeline
Wenn Sie von null anfangen, implementieren Sie dies in folgender Reihenfolge:
1. Versionskontrolle für Code und Prompts (Tag 1)
2. Code-Tests in CI (Woche 1)
3. Blue-Green-Deployment (Woche 1)
4. 5 Verhaltenstests in CI (Woche 2)
5. Post-Deployment-Überwachung (Woche 2)
6. Automatisierte Wiederherstellung (Woche 3)
Jeder Schritt fügt Sicherheit hinzu. Sie können mit nur den Schritten 1-3 versenden und den Rest schrittweise hinzufügen. Warten Sie nicht darauf, die „perfekte Pipeline“ zu haben – beginnen Sie noch heute, sicher zu deployen, und verbessern Sie sich kontinuierlich.
🕒 Published: