Incidentes acontecem. A diferença entre times que evoluem e times que repetem os mesmos erros está no que fazem depois. O postmortem blameless é a ferramenta mais poderosa que um time de SRE tem para transformar falhas em aprendizado.

Por que blameless?

Culpar alguém após um incidente gera medo. Medo gera silêncio. Silêncio esconde sinais importantes. As pessoas começam a maquiar sintomas, evitar riscos e o ciclo se repete.

A premissa do blameless é simples: quem estava ali fez o melhor que podia com a informação que tinha naquele momento.

Não significa que não há responsabilidade. Significa que a responsabilidade é do sistema, não do indivíduo. Se uma pessoa conseguiu derrubar produção com um comando, o problema é que o sistema permitiu isso.

Estrutura de um postmortem que funciona

1. Resumo do Incidente

  • Data e horário de início e fim
  • Serviços impactados
  • Quem foi afetado (usuários internos/externos)
  • Descrição clara e objetiva do que aconteceu

2. Linha do Tempo

Liste os eventos em ordem cronológica:

HorárioEvento
14:32Alarme de error rate disparou
14:35SRE de plantão reconheceu o alarme
14:38Identificado deploy recente como possível causa
14:42Rollback iniciado
14:47Serviço restaurado
14:50Alarme resolvido

Construa isso com o time logo após o incidente, enquanto a memória está fresca.

3. Impacto

  • Porcentagem de requisições afetadas
  • Duração da degradação
  • Impacto em SLOs
  • Como o usuário percebeu (erros, lentidão, indisponibilidade)

4. Causa Raiz

  • O que iniciou o problema?
  • Por que não foi contido antes?
  • Que decisões técnicas ou operacionais permitiram isso?

Vá além do óbvio. “O deploy quebrou” não é causa raiz. “O deploy não tinha validação de health check antes de rotacionar tráfego” é.

5. O que Funcionou Bem

Reconhecer o que funcionou também faz parte:

  • Alertas acionaram corretamente?
  • Alguém agiu rápido com conhecimento crítico?
  • Runbooks ajudaram?
  • Rollback foi efetivo?

6. Onde Podemos Melhorar

  • Alertas ausentes ou ignorados?
  • Escalação lenta?
  • Comunicação fragmentada?
  • Troubleshooting difícil por falta de logs ou métricas?
  • Runbooks desatualizados?
  • Falta de ownership claro?

7. Ações (a parte mais importante)

Cada ação deve ter:

  • Descrição específica (não “melhorar monitoramento”)
  • Responsável com nome
  • Prazo
  • Prioridade

Exemplo:

AçãoResponsávelPrazoPrioridade
Adicionar health check no pipeline de deployTime Platform2 semanasAlta
Criar alarme para latência p99 do checkoutSRE1 semanaAlta
Documentar runbook de rollback do serviço XSRE1 semanaMédia
Revisar timeout entre serviço A e bancoTime Backend3 semanasMédia

Template prático

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
# Postmortem: [Título descritivo do incidente]

**Data**: YYYY-MM-DD
**Duração**: HH:MM a HH:MM (X minutos)
**Severidade**: P1/P2/P3
**Autor**: [Nome]

## Resumo
[2-3 frases descrevendo o que aconteceu]

## Impacto
- Usuários afetados: X%
- Duração: X minutos
- SLO impactado: [qual]

## Linha do Tempo
| Horário | Evento |
|---------|--------|
| HH:MM | ... |

## Causa Raiz
[Descrição técnica da causa]

## O que Funcionou
- ...

## O que Podemos Melhorar
- ...

## Ações
| Ação | Responsável | Prazo | Status |
|------|-------------|-------|--------|
| ... | ... | ... | Pendente |

Erros comuns em postmortems

“Erro humano” como causa raiz: Se alguém rodou o comando errado, por que o sistema permitiu? Onde estava a validação? O guardrail?

Ações vagas: “Melhorar monitoramento” não é ação. “Criar alarme de error rate > 1% no serviço X com notificação no PagerDuty” é ação.

Postmortem sem follow-up: De nada adianta documentar ações se ninguém acompanha. Revise as ações na weekly do time.

Só fazer postmortem de P1: Incidentes menores também ensinam. Se o mesmo P3 acontece toda semana, merece um postmortem.

Como conduzir a reunião

  1. Facilitador neutro (não o envolvido direto no incidente)
  2. Foco em fatos, não em opiniões (“o log mostra X” vs “eu acho que foi Y”)
  3. Sem interrupções durante a construção da timeline
  4. Máximo 1 hora (se precisar de mais, agende continuação)
  5. Publicar o documento para toda a organização (transparência)

Quando fazer postmortem

  • Todo incidente P1 e P2
  • Incidentes P3 recorrentes (mesmo problema 3+ vezes)
  • Near-misses (quase deu problema, mas foi pego a tempo)
  • Quando o time pedir (qualquer pessoa pode solicitar)

Postmortem não é burocracia. É o mecanismo que transforma dor em evolução. Se seu time ainda procura culpados após incidentes, talvez seja hora de mudar a abordagem. O sistema falhou, não a pessoa.