Nos primeiros três meses de funcionamento do OpenClaw, minha estratégia de monitoramento era: verificar o terminal a cada poucas horas e torcer para que nada estivesse pegando fogo. Spoiler: às vezes, as coisas estavam pegando fogo, e eu não sabia até que alguém me avisasse.
Então, configurei um painel do Grafana, e foi como colocar óculos pela primeira vez. De repente, eu podia ver tudo — tempos de resposta, uso de tokens, taxas de erro, atividade do agente — tudo em um só lugar, em tempo real, com gráficos bonitos que me fazem sentir como se estivesse pilotando uma nave espacial.
Veja como eu construí, o que monitoro e por que isso importa mais do que você pensa.
Por que se preocupar com um painel
“Registrar é o suficiente” foi o que eu disse a mim mesmo antes do painel. Não é suficiente. Os registros dizem o que aconteceu depois que alguém reclama. Um painel diz o que está acontecendo antes que alguém perceba.
Três coisas que meu painel capturou que os registros sozinhos não teriam:
Degradação gradual no tempo de resposta. Ao longo de duas semanas, o tempo médio de resposta subiu de 2,3 segundos para 4,8 segundos. O aumento foi muito gradual para ser notado em interações individuais, mas a linha de tendência no painel estava obviamente errada. Causa raiz: um contexto de conversa crescente que não estava sendo podado.
Aumento no custo dos tokens. Em uma terça-feira, meu uso diário de tokens triplicou. Não por causa de mais solicitações — mas devido a respostas mais longas. Uma mudança de prompt que fiz no dia anterior estava causando o modelo a gerar saídas muito mais verbosas do que o pretendido. O painel capturou isso em poucas horas; caso contrário, eu teria notado quando a fatura mensal chegasse.
Falhas silenciosas em jobs cron. Dois jobs programados estavam falhando silenciosamente há uma semana. O painel mostrou que o padrão esperado (picos de execução diária em horários específicos) tinha lacunas. Sem o padrão visual, eu talvez não tivesse notado por mais uma semana.
A Configuração
Pilha: Prometheus para coleta de métricas, Grafana para visualização, Node Exporter para métricas de sistema. Tempo total de configuração: cerca de 3 horas. Custo total: gratuito (auto-hospedado) ou $15/mês (o plano gratuito do Grafana Cloud cobre a maioria das necessidades).
Se você já está rodando um VPS para o OpenClaw, pode rodar o Grafana no mesmo servidor. Minha configuração roda o Prometheus e o Grafana no mesmo VPS de $20/mês que o OpenClaw, sem impacto perceptível no desempenho.
Obtendo métricas do OpenClaw: Os logs do OpenClaw são a principal fonte de dados. Escrevi um script simples que analisa arquivos de log e expõe métricas como um endpoint do Prometheus. As métricas principais a serem extraídas:
– Contagem de solicitações (total e por tipo)
– Tempo de resposta (média, p95, p99)
– Uso de tokens (entrada e saída, por solicitação)
– Contagem de erros (por tipo)
– Sessões ativas
– Status de execução de jobs cron
Meu Layout do Painel
Eu tenho quatro linhas:
Linha 1: Saúde em um relance. Quatro números grandes: tempo de resposta atual, solicitações na última hora, taxa de erro e custo diário estimado. Verde quando normal, amarelo quando elevado, vermelho quando algo precisa de atenção. Eu olho para esta linha 10 vezes ao dia.
Linha 2: Tendências. Gráficos de séries temporais para tempo de resposta, volume de solicitações e uso de tokens nas últimas 24 horas e 7 dias. É aqui que eu identifico degradações graduais e padrões incomuns.
Linha 3: Custos. Uso de tokens dividido por modelo, por tipo de tarefa e por hora. Um total diário comparado ao orçamento. Esta linha me salvou centenas de dólares ao detectar anomalias de custo precocemente.
Linha 4: Atividade do agente. Quais agentes estão ativos, no que estão trabalhando, histórico de execução de jobs cron e erros recentes com detalhes. Esta é a linha de depuração — eu só olho para ela quando algo está errado.
Os Alertas que Realmente Importam
Configurei 6 alertas. Após um mês ajustando, removi 2 que eram muito barulhentos e ajustei os limites dos 4 restantes.
Alerta 1: Tempo de resposta > 10 segundos. Este dispara quando o tempo de resposta p95 excede 10 segundos em uma janela de 5 minutos. Geralmente significa que a API de IA está tendo problemas, ou meu contexto é muito grande.
Alerta 2: Taxa de erro > 5%. Mais de 5% das solicitações falhando significa que algo está sistematicamente errado, não apenas problemas ocasionais na API.
Alerta 3: Custo diário excede 2x a média. Captura loops descontrolados e picos inesperados de uso antes que se tornem caros.
Alerta 4: Execução de job cron perdida. Se um job cron esperado não roda dentro de 30 minutos de seu horário programado, algo está errado.
Esses quatro alertas são o equilíbrio certo para minha configuração. Suficientes para detectar problemas reais. Não tantos que eu comece a ignorá-los.
O que eu pularia
Dashboards por solicitação. Eu inicialmente criei um painel mostrando cada solicitação individual. Foi interessante por cerca de um dia, depois se tornou ruído. Métricas agregadas são mais úteis do que dados individuais para monitoramento.
Painéis de comparação de modelos. Eu criei painéis comparando as pontuações de qualidade do Claude vs GPT-4o. Os dados eram interessantes, mas não acionáveis — eu já havia decidido qual modelo usar, e o painel não mudou essa decisão.
Visualizações elaboradas. Grafana pode criar dashboards bonitos com medidores, mapas de calor e diagramas de fluxo. Resista à tentação. Gráficos de linhas simples e números grandes são mais legíveis à primeira vista, que é o objetivo principal.
O Cálculo de ROI
Tempo de configuração: 3 horas.
Manutenção mensal: 30 minutos (atualizando dashboards, ajustando alertas).
Economias ao identificar problemas cedo: estimados $200-300/mês em custos extras evitados e tempo de inatividade reduzido.
O painel se pagou no primeiro mês. Se você está rodando o OpenClaw (ou qualquer sistema de IA) sem observabilidade, você está voando às cegas. Você pode estar voando bem. Mas quando não estiver, você não saberá até já ter colidido.
🕒 Published: