<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Serie-Sre-Na-Pratica on Nerd Severino</title>
    <link>https://nerdseverino.com.br/tags/serie-sre-na-pratica/</link>
    <description>Recent content in Serie-Sre-Na-Pratica on Nerd Severino</description>
    <image>
      <title>Nerd Severino</title>
      <url>https://nerdseverino.com.br/images/nerdserverino.png</url>
      <link>https://nerdseverino.com.br/images/nerdserverino.png</link>
    </image>
    <generator>Hugo -- 0.146.0</generator>
    <language>pt-BR</language>
    <lastBuildDate>Tue, 21 Apr 2026 01:15:00 -0300</lastBuildDate>
    <atom:link href="https://nerdseverino.com.br/tags/serie-sre-na-pratica/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Observabilidade na AWS: O que Monitorar Primeiro</title>
      <link>https://nerdseverino.com.br/blog/observabilidade-na-aws-o-que-monitorar-primeiro/</link>
      <pubDate>Tue, 21 Apr 2026 01:15:00 -0300</pubDate>
      <guid>https://nerdseverino.com.br/blog/observabilidade-na-aws-o-que-monitorar-primeiro/</guid>
      <description>Seu CloudWatch tem 200 alarmes e nenhum deles te acorda quando realmente importa?

O problema não é falta de monitoramento. É excesso de ruído.

Depois de operar dezenas de contas AWS, aprendi que observabilidade começa com 3 perguntas:

⚡ O serviço está respondendo? (disponibilidade)
⚡ Está respondendo rápido? (latência p99)
⚡ Está respondendo certo? (taxa de erro)

Se você não consegue responder essas 3 em 10 segundos, seu monitoramento precisa de ajuste.

O post completo cobre: métricas essenciais por serviço, alarmes que fazem sentido, dashboards úteis vs dashboards bonitos, e um checklist para começar hoje.

Qual métrica você olha primeiro quando recebe um alerta?

🔗 https://nerdseverino.com.br/blog/observabilidade-na-aws-o-que-monitorar-primeiro/

#AWS #SRE #CloudWatch #Observabilidade #Monitoramento #DevOps
</description>
    </item>
    <item>
      <title>Troubleshooting Docker em Produção: Guia de Sobrevivência</title>
      <link>https://nerdseverino.com.br/blog/troubleshooting-docker-em-producao/</link>
      <pubDate>Fri, 27 Mar 2026 13:00:00 -0300</pubDate>
      <guid>https://nerdseverino.com.br/blog/troubleshooting-docker-em-producao/</guid>
      <description>Container reiniciando em loop e você não sabe por quê?

O exit code te conta tudo:
🔴 137 → OOM killer matou (memória estourou)
🔴 139 → Segfault
🟡 1 → Erro da aplicação
🟢 0 → Saiu normal (mas não deveria)

Um comando que pouca gente conhece:
docker inspect &amp;lt;container&amp;gt; --format &amp;#39;{{.State.ExitCode}} - {{.State.OOMKilled}}&amp;#39;

Se OOMKilled = true, não adianta reiniciar — precisa aumentar o limite ou investigar memory leak.

Escrevi um guia completo: disco cheio fantasma, rede, overlay2, health checks.

Qual o problema mais chato que você já teve com Docker em produção?

🔗 https://nerdseverino.com.br/blog/troubleshooting-docker-em-producao/

#Docker #DevOps #Containers #SRE #Troubleshooting
</description>
    </item>
    <item>
      <title>Comandos Linux que Todo SRE Deveria Saber</title>
      <link>https://nerdseverino.com.br/blog/comandos-linux-que-todo-sre-deveria-saber/</link>
      <pubDate>Thu, 26 Mar 2026 08:50:00 -0300</pubDate>
      <guid>https://nerdseverino.com.br/blog/comandos-linux-que-todo-sre-deveria-saber/</guid>
      <description>O alerta toca às 3h da manhã. Você entra no servidor. O que roda primeiro?

Depois de mais de uma década resolvendo incidentes, esses são os primeiros 60 segundos:

⚡ uptime → load average e tempo de pé
⚡ dmesg -T | tail -20 → kernel matou algo?
⚡ free -h → swap estourado = problema
⚡ df -h → disco cheio causa 30% dos incidentes
⚡ ss -tlnp → portas abertas e quem ouve

Se o load está alto, o dmesg mostra OOM kill e o swap está cheio — diagnóstico em 30 segundos.

O post completo tem seções sobre strace, /proc, iotop e one-liners que já me salvaram.

E você, qual é o primeiro comando que roda quando entra num servidor com problema?

🔗 https://nerdseverino.com.br/blog/comandos-linux-que-todo-sre-deveria-saber/

#Linux #SRE #DevOps #Troubleshooting #OnCall
</description>
    </item>
  </channel>
</rss>
