On-Call Cookbook
Objetivo
Este cookbook fornece diretrizes práticas para a organização de um esquema de on-call(guardião, plantão, motorista da rodada e etc) eficiente e resiliente, com base nas melhores práticas de Site Reliability Engineering (SRE).
Se você quiser saber mais sobre On-Call, sugiro a leitura do post anterior.
Definição e Escopo
O on-call durante o expediente refere-se a períodos em que os membros da equipe estão disponíveis para responder a incidentes e alertas durante o horário de trabalho normal. Isso difere de sobreaviso ou plantão, que geralmente envolvem disponibilidade fora do horário de trabalho.
Coisas que uma Pessoa de On-Call Deve Fazer
- Monitoramento de Sistemas: Verifique painéis de monitoramento e responda a alertas de desempenho, disponibilidade e erros.
- Responder a Incidentes: Responda prontamente a alertas e chamados, diagnostique e resolva problemas rapidamente.
- Comunicação: Mantenha uma comunicação clara e eficiente com a equipe, stakeholders e outros departamentos afetados pelos incidentes.
- Documentação: Documente os incidentes e as ações tomadas para resolvê-los, para referência futura e aprendizado.
- Análise de Logs: Analise logs de servidores, aplicações e redes para identificar causas raiz de problemas.
- Escalonamento de Problemas: Saiba quando e como escalar problemas para níveis superiores ou outras equipes especializadas.
- Manutenção Preventiva: Realize verificações regulares de sistemas e infraestrutura para prevenir problemas antes que eles ocorram.
- Atualizações e Patches: Aplique atualizações e patches de segurança para manter o ambiente seguro e estável.
- Backup e Recuperação: Garanta que os backups estejam sendo feitos corretamente e teste os processos de recuperação.
- Revisão Pós-Incidente: Participe de revisões pós-incidente para analisar o que aconteceu e como melhorar no futuro.
Formas de Organizar o On-Call
- Escalas Rotativas: Crie um cronograma de on-call rotativo para distribuir a carga de trabalho de maneira justa entre todos os membros da equipe.
- Ferramentas de Monitoramento e Alerta: Utilize ferramentas para gerenciar alertas e escalonamentos de forma eficiente.
- Runbooks e Playbooks: Desenvolva e mantenha runbooks e playbooks detalhados para guiar a equipe de on-call em diferentes tipos de incidentes.
- Reuniões Regulares: Realize reuniões regulares de revisão de on-call para discutir incidentes recentes, melhorias no processo e feedback.
- Treinamento e Desenvolvimento: Prover treinamentos contínuos para a equipe de on-call, incluindo simulações de incidentes e workshops de novas tecnologias ou processos.
- Documentação Centralizada: Mantenha uma base de conhecimento centralizada onde todos os procedimentos, runbooks e documentação de sistemas estejam acessíveis.
- Balanceamento de Carga: Analise a carga de incidentes e ajuste as escalas de on-call para garantir que nenhum membro da equipe fique sobrecarregado.
- Ferramentas de Comunicação: Utilize ferramentas de comunicação eficientes para coordenar a resposta a incidentes.
- Feedback Contínuo: Implemente um sistema de feedback contínuo para que os membros da equipe possam sugerir melhorias e relatar problemas com o processo de on-call.
- Automatização: Automatize tarefas repetitivas e processos de monitoramento para reduzir a carga de trabalho manual durante os períodos de on-call.
Hands-On / Hands-Off
- Transferência de Conhecimento: No período de hands-off, compartilhe informações detalhadas sobre quaisquer problemas em andamento ou potenciais riscos.
- Documentação Atualizada: Assegure que toda a documentação relevante está atualizada e acessível antes de finalizar o turno.
- Briefing de Transferência: Realize um briefing rápido para o próximo on-call, destacando pontos críticos e status atual.
- Evitar o Término no Último Dia da Semana: Planeje o término do on-call para o meio da semana, como quarta ou quinta-feira, para facilitar a transição de responsabilidades e permitir tempo para resolver problemas em andamento antes do final de semana.
Conclusão
Seguindo estas práticas, você poderá criar um ambiente on-call eficiente e resiliente, garantindo que sua equipe esteja bem preparada para lidar com incidentes e manter a alta disponibilidade dos sistemas.
Top comments (1)
Solid grasp of SRE on-call principles.