MODULO 3.6

🐛 Troubleshooting e Debug

Tecnicas para diagnosticar e resolver problemas em sistemas GIPM.

6
Topicos
~35
Minutos
Avanc.
Nivel
Tecnico
Tipo
1

🔍 Logs estruturados

# Log estruturado para GIPM
{
    "timestamp": "2026-01-16T10:30:00Z",
    "level": "INFO",
    "execution_id": "uuid-123",
    "pipeline_step": "persona_injection",
    "user_id": "user-456",
    "tenant_id": "tenant-789",
    "persona": "critical_reviewer",
    "tokens_input": 150,
    "duration_ms": 45,
    "message": "Persona injected successfully"
}
2

🐛 Debug de pipelines

Identificar em qual passo do pipeline o problema ocorre.

Checklist de debug por passo

1. SolicitacaoRequest chegou? Formato correto?
2. ValidacaoUsuario autenticado? Permissoes ok?
3. ContextoDados coletados? Fontes acessiveis?
4-5. ProcessamentoPersona carregada? Prompt montado?
6. Chamada IAAPI respondeu? Timeout? Rate limit?
7-9. SaidaPersistiu? Materializou? Retornou?
3

📊 Tracing distribuido

Rastrear uma requisicao atraves de multiplos servicos.

# OpenTelemetry trace
with tracer.start_as_current_span("gipm_pipeline") as span:
    span.set_attribute("execution_id", execution_id)
    span.set_attribute("persona", persona.name)

    with tracer.start_as_current_span("collect_context"):
        context = collect_context(request)

    with tracer.start_as_current_span("call_llm"):
        response = call_llm(context, persona)

    with tracer.start_as_current_span("persist"):
        persist(execution_id, response)
4

⚠️ Alertas inteligentes

Critico

Taxa de erro > 5%, Latencia p99 > 10s, Custo diario > 2x media

Warning

Taxa de erro > 1%, Latencia p95 > 5s, Custo acima do budget

Info

Nova versao de modelo, Mudanca de persona, Pico de uso

Recovery

Metricas normalizadas apos incidente

5

📈 Dashboards de monitoramento

Metricas essenciais no dashboard

RPS

Requests/segundo

Latencia

p50, p95, p99

Erros

Taxa e tipos

Custo

USD/hora

6

🛠️ Ferramentas recomendadas

Observabilidade

Grafana, Datadog, New Relic, Honeycomb

Logs

ELK Stack, Loki, CloudWatch Logs

Tracing

Jaeger, Zipkin, AWS X-Ray

Alertas

PagerDuty, Opsgenie, Slack webhooks

📝 Resumo do Modulo

Logs estruturados - JSON com execution_id
Debug por passo - Checklist do pipeline
Tracing - OpenTelemetry distribuido
Alertas - Por severidade e tipo