Na madrugada do dia 19 de julho, engenheiros da Microsoft perceberam que algo estava errado: milhões de máquinas com Windows estavam enfrentando a temida “tela azul da morte”, derrubando servidores e PCs ao redor do mundo. A Microsoft rapidamente classificou o incidente como “severity zero” (sev0), o nível mais urgente para problemas que afetam produtos ou serviços da empresa.

O problema teve origem em uma atualização da CrowdStrike, lançada à 01h09 da madrugada de 19 de julho, que acabou derrubando 8,5 milhões de dispositivos Windows ao redor do mundo. Apesar de a falha não ser diretamente culpa da Microsoft, a empresa teve que lidar com as consequências, uma vez que impactou organizações com infraestrutura crítica, como aponta um artigo de Tom Warren para o The Verge.

publicidade

Ação imediata da Microsoft

A Microsoft possui uma equipe de monitoramento em tempo real que identificou rapidamente a falha. Contudo, as linhas de suporte também foram sobrecarregadas com a quantidade de máquinas afetadas. A empresa começou a trabalhar em uma ferramenta de recuperação, mobilizando centenas de engenheiros para ajudar na restauração dos PCs afetados.

Inicialmente, a CrowdStrike publicou uma solução manual que envolvia reiniciar as máquinas em Modo de Segurança e deletar um arquivo problemático. Para simplificar esse processo, a equipe do Intune da Microsoft desenvolveu uma ferramenta de recuperação, lançada no sábado, com melhorias contínuas durante o fim de semana.

publicidade

A versão mais recente, 3.1, foi lançada na segunda-feira, suportando diferentes tipos de sistemas Windows, servidores e sistemas operacionais hospedados no Hyper-V.

Tela azul da morte do Windows atingiu 8,5 milhões de dispositivos ao redor do mundo após falha da CrowdStrike. (Imagem: Lea Rae / Shutterstock.com)

Mobilização e suporte contínuo

Além de desenvolver a ferramenta de recuperação, a Microsoft mobilizou equipes para responder aos clientes comerciais, comunicar-se com a imprensa e continuar os esforços de recuperação. O vice-presidente de segurança empresarial e de OS da Microsoft, David Weston, destacou em um post blog que os engenheiros estavam trabalhando 24 horas por dia para fornecer atualizações e suporte contínuos.

publicidade

Leia mais:

Reflexões e lições do incidente da CrowdStrike

Quase uma semana após o incidente, a Microsoft ainda estava lidando com as consequências. Internamente, houve frustração sobre como a atualização da CrowdStrike conseguiu derrubar milhões de máquinas Windows. Muitos funcionários ficaram descontentes com as manchetes iniciais que colocaram a culpa na Microsoft.

publicidade

Apesar dos desafios, a Microsoft destacou a importância da colaboração na indústria de cibersegurança, em vez de uma cultura de culpas. A empresa também planeja revisar como lida com a integração profunda de fornecedores de segurança no Windows.

Celular com logotipo da Crowdstrike na tela e, ao fundo, computador com gráfico da empresa aberto
Uma atualização de driver do sistema da Crowdstrike causou apagão cibernético global (Imagem: T. Schneider / Shutterstock.com)

Impacto e mudanças futuras

A CrowdStrike, conhecida por criticar os esforços de segurança da Microsoft, terá que responder por essa falha. A empresa removeu uma linha de marketing que ridicularizava a segurança da Microsoft após o incidente. A situação destaca a necessidade de melhores práticas de atualização e validação por parte dos fornecedores de segurança.

No final, a Microsoft enfatizou que a recuperação e a aprendizagem são mais eficazes quando há colaboração e trabalho conjunto, e espera-se que futuras atualizações no setor de cibersegurança reflitam essa abordagem cooperativa.