Automação SRE: Eliminando Toil com Scripts e CI/CD

Automação SRE: eliminando toil com scripts e CI/CD

Se você faz a mesma tarefa manual mais de 3 vezes, deveria ter automatizado na segunda. Toil é o inimigo silencioso de times de SRE: consome tempo, não agrega valor e só cresce se não for combatido. ...

June 16, 2026 · Fabrício Machado
Postmortem Blameless: Aprendendo com o Caos sem Procurar Culpado

Postmortem Blameless: aprendendo com o caos sem procurar culpado

Incidentes acontecem. A diferença entre times que evoluem e times que repetem os mesmos erros está no que fazem depois. O postmortem blameless é a ferramenta mais poderosa que um time de SRE tem para transformar falhas em aprendizado. ...

June 8, 2026 · Fabrício Machado
On-Call sem Burnout: Organizando Plantão em Times Pequenos

On-Call sem Burnout: organizando plantão em times pequenos

On-call é parte essencial da operação de sistemas em produção. Mas on-call mal organizado destrói times. A diferença entre um plantão sustentável e um que causa burnout está na estrutura, não na quantidade de alertas. ...

June 1, 2026 · Fabrício Machado
FinOps para SREs: Controlando Custos AWS sem Perder Performance

FinOps para SREs: controlando custos AWS sem perder performance

A fatura AWS é o relatório de performance que ninguém lê. Até o dia que chega 40% maior e todo mundo quer saber o que aconteceu. FinOps para SREs não é sobre cortar custos. É sobre gastar com consciência e ter visibilidade do que cada real está comprando. ...

May 25, 2026 · Fabrício Machado
Cover

Observabilidade na AWS: o que monitorar primeiro

Seu CloudWatch tem 200 alarmes e nenhum deles te acorda quando realmente importa? Você não está sozinho. A maioria dos ambientes AWS que encontro tem monitoramento demais e observabilidade de menos. ...

April 21, 2026 · Fabrício Machado
Cover

Kiro + AWS: gerenciando infraestrutura por conversa

Gerenciar infraestrutura AWS pelo terminal é o dia a dia de qualquer SRE. Mas entre lembrar a sintaxe exata do aws cli, montar filtros JSON, interpretar saídas gigantes e alternar entre dezenas de contas, o trabalho operacional consome tempo demais. Integrar o Kiro CLI com AWS transformou a forma como eu opero — e vou mostrar como. ...

April 6, 2026 · Fabrício Machado

Kiro CLI Skills: as 8 skills que uso no dia a dia como SRE

Se você usa o Kiro CLI e ainda não explorou o sistema de skills, está deixando poder na mesa. Skills são como “módulos de conhecimento especializado” que o Kiro carrega sob demanda — ele sabe quando ativar cada uma com base no que você pede. Neste artigo, compartilho as 8 skills que fazem parte do meu setup diário como SRE. ...

March 29, 2026 · Fabrício Machado
Cover

Troubleshooting Docker em Produção: guia de sobrevivência

Container parou, aplicação não responde, disco encheu do nada. Se você roda Docker em produção, já passou por isso. Aqui vai o que eu aprendi resolvendo esses problemas no mundo real. ...

March 27, 2026 · Fabrício Machado
Cover

Comandos Linux que Todo SRE Deveria Saber

Quando o alerta toca às 3 da manhã e o sistema está degradado, não adianta ter dashboard bonito se você não sabe investigar no terminal. Esses são os comandos que me salvaram em mais de uma década lidando com incidentes em produção. ...

March 26, 2026 · Fabrício Machado

aws-vault: gerenciando múltiplas contas AWS com segurança

Se você trabalha com mais de uma conta AWS — e se é SRE ou DevOps, provavelmente trabalha com várias — já deve ter sentido o medo de rodar um terraform destroy na conta errada. O aws-vault resolve esse problema e mais alguns. ...

March 23, 2026 · Fabrício Machado