DEV Community

Cover image for On-Call Cookbook
Fabricio_Gonçalves
Fabricio_Gonçalves

Posted on

On-Call Cookbook

On-Call Cookbook

Objetivo

Este cookbook fornece diretrizes práticas para a organização de um esquema de on-call(guardião, plantão, motorista da rodada e etc) eficiente e resiliente, com base nas melhores práticas de Site Reliability Engineering (SRE).

Se você quiser saber mais sobre On-Call, sugiro a leitura do post anterior.

Definição e Escopo

O on-call durante o expediente refere-se a períodos em que os membros da equipe estão disponíveis para responder a incidentes e alertas durante o horário de trabalho normal. Isso difere de sobreaviso ou plantão, que geralmente envolvem disponibilidade fora do horário de trabalho.

Coisas que uma Pessoa de On-Call Deve Fazer

  1. Monitoramento de Sistemas: Verifique painéis de monitoramento e responda a alertas de desempenho, disponibilidade e erros.
  2. Responder a Incidentes: Responda prontamente a alertas e chamados, diagnostique e resolva problemas rapidamente.
  3. Comunicação: Mantenha uma comunicação clara e eficiente com a equipe, stakeholders e outros departamentos afetados pelos incidentes.
  4. Documentação: Documente os incidentes e as ações tomadas para resolvê-los, para referência futura e aprendizado.
  5. Análise de Logs: Analise logs de servidores, aplicações e redes para identificar causas raiz de problemas.
  6. Escalonamento de Problemas: Saiba quando e como escalar problemas para níveis superiores ou outras equipes especializadas.
  7. Manutenção Preventiva: Realize verificações regulares de sistemas e infraestrutura para prevenir problemas antes que eles ocorram.
  8. Atualizações e Patches: Aplique atualizações e patches de segurança para manter o ambiente seguro e estável.
  9. Backup e Recuperação: Garanta que os backups estejam sendo feitos corretamente e teste os processos de recuperação.
  10. Revisão Pós-Incidente: Participe de revisões pós-incidente para analisar o que aconteceu e como melhorar no futuro.

Formas de Organizar o On-Call

  1. Escalas Rotativas: Crie um cronograma de on-call rotativo para distribuir a carga de trabalho de maneira justa entre todos os membros da equipe.
  2. Ferramentas de Monitoramento e Alerta: Utilize ferramentas para gerenciar alertas e escalonamentos de forma eficiente.
  3. Runbooks e Playbooks: Desenvolva e mantenha runbooks e playbooks detalhados para guiar a equipe de on-call em diferentes tipos de incidentes.
  4. Reuniões Regulares: Realize reuniões regulares de revisão de on-call para discutir incidentes recentes, melhorias no processo e feedback.
  5. Treinamento e Desenvolvimento: Prover treinamentos contínuos para a equipe de on-call, incluindo simulações de incidentes e workshops de novas tecnologias ou processos.
  6. Documentação Centralizada: Mantenha uma base de conhecimento centralizada onde todos os procedimentos, runbooks e documentação de sistemas estejam acessíveis.
  7. Balanceamento de Carga: Analise a carga de incidentes e ajuste as escalas de on-call para garantir que nenhum membro da equipe fique sobrecarregado.
  8. Ferramentas de Comunicação: Utilize ferramentas de comunicação eficientes para coordenar a resposta a incidentes.
  9. Feedback Contínuo: Implemente um sistema de feedback contínuo para que os membros da equipe possam sugerir melhorias e relatar problemas com o processo de on-call.
  10. Automatização: Automatize tarefas repetitivas e processos de monitoramento para reduzir a carga de trabalho manual durante os períodos de on-call.

Hands-On / Hands-Off

  1. Transferência de Conhecimento: No período de hands-off, compartilhe informações detalhadas sobre quaisquer problemas em andamento ou potenciais riscos.
  2. Documentação Atualizada: Assegure que toda a documentação relevante está atualizada e acessível antes de finalizar o turno.
  3. Briefing de Transferência: Realize um briefing rápido para o próximo on-call, destacando pontos críticos e status atual.
  4. Evitar o Término no Último Dia da Semana: Planeje o término do on-call para o meio da semana, como quarta ou quinta-feira, para facilitar a transição de responsabilidades e permitir tempo para resolver problemas em andamento antes do final de semana.

Conclusão

Seguindo estas práticas, você poderá criar um ambiente on-call eficiente e resiliente, garantindo que sua equipe esteja bem preparada para lidar com incidentes e manter a alta disponibilidade dos sistemas.

Top comments (1)

Collapse
 
jeromehardaway profile image
Jerome Hardaway

Solid grasp of SRE on-call principles.