Automação SRE: Eliminando Toil com Scripts e CI/CD

Automação SRE: eliminando toil com scripts e CI/CD

Se você faz a mesma tarefa manual mais de 3 vezes, deveria ter automatizado na segunda. Toil é o inimigo silencioso de times de SRE: consome tempo, não agrega valor e só cresce se não for combatido. ...

June 16, 2026 · Fabrício Machado
Postmortem Blameless: Aprendendo com o Caos sem Procurar Culpado

Postmortem Blameless: aprendendo com o caos sem procurar culpado

Incidentes acontecem. A diferença entre times que evoluem e times que repetem os mesmos erros está no que fazem depois. O postmortem blameless é a ferramenta mais poderosa que um time de SRE tem para transformar falhas em aprendizado. ...

June 8, 2026 · Fabrício Machado
On-Call sem Burnout: Organizando Plantão em Times Pequenos

On-Call sem Burnout: organizando plantão em times pequenos

On-call é parte essencial da operação de sistemas em produção. Mas on-call mal organizado destrói times. A diferença entre um plantão sustentável e um que causa burnout está na estrutura, não na quantidade de alertas. ...

June 1, 2026 · Fabrício Machado
FinOps para SREs: Controlando Custos AWS sem Perder Performance

FinOps para SREs: controlando custos AWS sem perder performance

A fatura AWS é o relatório de performance que ninguém lê. Até o dia que chega 40% maior e todo mundo quer saber o que aconteceu. FinOps para SREs não é sobre cortar custos. É sobre gastar com consciência e ter visibilidade do que cada real está comprando. ...

May 25, 2026 · Fabrício Machado
AWS Incident Response Demonstrated

Detonado: AWS Incident Response Demonstrated

Passei na microcredencial AWS Incident Response Demonstrated e resolvi documentar o processo completo. Diferente de provas teóricas, aqui você executa ações diretamente no console AWS em um ambiente simulado, respondendo a um ataque multivetorial em 90 minutos. ...

April 28, 2026 · Fabrício Machado
Cover

Observabilidade na AWS: o que monitorar primeiro

Seu CloudWatch tem 200 alarmes e nenhum deles te acorda quando realmente importa? Você não está sozinho. A maioria dos ambientes AWS que encontro tem monitoramento demais e observabilidade de menos. ...

April 21, 2026 · Fabrício Machado

S3 Files: agora você pode montar um bucket S3 como filesystem

A AWS acabou de lançar o S3 Files — e se você é SRE, isso muda bastante coisa. Em resumo: agora você pode montar um bucket S3 como filesystem NFS em qualquer compute da AWS. Sem gambiarras, sem FUSE, sem sync manual. ...

April 8, 2026 · Fabrício Machado
Cover

Troubleshooting Docker em Produção: guia de sobrevivência

Container parou, aplicação não responde, disco encheu do nada. Se você roda Docker em produção, já passou por isso. Aqui vai o que eu aprendi resolvendo esses problemas no mundo real. ...

March 27, 2026 · Fabrício Machado
Cover

Comandos Linux que Todo SRE Deveria Saber

Quando o alerta toca às 3 da manhã e o sistema está degradado, não adianta ter dashboard bonito se você não sabe investigar no terminal. Esses são os comandos que me salvaram em mais de uma década lidando com incidentes em produção. ...

March 26, 2026 · Fabrício Machado