A fatura AWS é o relatório de performance que ninguém lê. Até o dia que chega 40% maior e todo mundo quer saber o que aconteceu. FinOps para SREs não é sobre cortar custos. É sobre gastar com consciência e ter visibilidade do que cada real está comprando.
O ciclo FinOps
FinOps funciona em três fases contínuas:
| Fase | Objetivo | Ações |
|---|---|---|
| Inform | Visibilidade | Tagging, atribuição de custos, dashboards |
| Optimize | Reduzir desperdício | Rightsizing, scheduling, Spot, commitments |
| Operate | Cultura | Budget alerts, sprints de otimização, ownership |
A maioria dos times pula direto para Optimize sem ter Inform. Resultado: otimizam às cegas.
Passo zero: Tagging
Sem tags, você não sabe quem gasta o quê. Tags obrigatórias:
| Tag | Exemplo | Por que |
|---|---|---|
| team | platform, backend | Quem é responsável |
| environment | prod, staging, dev | Onde desligar à noite |
| service | api, worker, db | O que consome |
| cost-center | projeto-x | Chargeback/showback |
Meta: menos de 5% do spend sem tag. Use SCPs no AWS Organizations para forçar tagging na criação de recursos.
Quick wins (ordem de prioridade)
1. Scheduling de ambientes não-prod
O quick win com maior retorno. Ambientes de dev/staging não precisam rodar 24/7:
| |
2. Rightsizing
A maioria das instâncias EC2 roda com CPU abaixo de 20%. Verifique:
| |
Use o AWS Compute Optimizer para recomendações automáticas. Comece pelos top 20% mais caros.
3. EBS: gp2 para gp3
Migração sem downtime, mesma performance base, 20% mais barato:
| |
4. Snapshots e AMIs antigas
Snapshots acumulam silenciosamente:
| |
5. NAT Gateway
NAT Gateway cobra por GB processado. Alternativas:
- VPC Endpoints para S3 e DynamoDB (grátis para Gateway endpoints)
- NAT Instance para ambientes com pouco tráfego
- Revisar tráfego cross-AZ desnecessário
6. Savings Plans e Reserved Instances
Só compre depois de 3-4 meses de dados reais. Mix alvo:
| Tipo | % do spend | Quando |
|---|---|---|
| Savings Plans | 50-70% | Workloads estáveis |
| Spot | 20-30% | Batch, CI/CD, tolerante a falha |
| On-Demand | 10-20% | Picos, novos serviços |
S3: Lifecycle Policies
Dados que ninguém acessa custam o mesmo que dados ativos:
| Classe | Custo/GB/mês | Quando usar |
|---|---|---|
| Standard | $0.023 | Acesso frequente |
| Standard-IA | $0.0125 | Acesso mensal |
| Glacier Instant | $0.004 | Acesso trimestral |
| Glacier Deep Archive | $0.00099 | Compliance, raramente acessado |
| |
Monitoramento de custos
Budget Alerts
| |
Cost Explorer via CLI
| |
Cultura FinOps
Ferramentas sem cultura não funcionam. Práticas que fazem diferença:
- Showback antes de chargeback: Mostre os custos por time sem punir. Visibilidade gera consciência.
- Budget alerts no Slack/Telegram: 80% do budget = notificação automática.
- Sprints de otimização quinzenais: Top 3 desperdícios por time, ações concretas.
- “You build it, you pay for it”: Quem cria o recurso é responsável pelo custo.
Checklist mensal
- Revisar top 10 serviços por custo
- Verificar recursos sem tag
- Checar instâncias com CPU < 20%
- Revisar snapshots e AMIs antigas
- Verificar Savings Plans utilization
- Comparar custo MoM (mês a mês)
FinOps não é projeto com início e fim. É um ciclo contínuo de visibilidade, otimização e cultura. Comece pelo tagging, aplique os quick wins, e construa o hábito de olhar custos com a mesma atenção que olha métricas de performance.
