AWS: falha de terça-feira foi causada por sobrecarga em dispositivos de rede

O caos se instaurou na última terça-feira (7) e a humanidade chegou à beira da sua aniquilação quando serviços como Amazon, Disney Plus, ‘League of Legends’, ‘PUBG’, Canva, Prime Video e serviços nacionais, como o C6 Bank e iFood apresentaram instabilidade e interrupções. E de acordo com a Amazon Web Services (AWS), a causa foi uma sobrecarga em um processo automatizado da sua rede.

A explicação veio em um relatório publicado na página da própria empresa. “Uma atividade automatizada para dimensionar a capacidade de um dos serviços da AWS hospedados na rede principal da AWS desencadeou um comportamento inesperado de um grande número de clientes dentro da rede interna”, afirma a Amazon.

Esse comportamento resultou em um grande “surto de atividade de conexão” que sobrecarregou os dispositivos de rede entre a rede interna e a rede AWS principal, “resultando em atrasos para a comunicação entre essas redes” de acordo com o relatório. O problema afetou até mesmo a capacidade da Amazon de ver o que exatamente estava errado com o sistema e atrasou o conserto em sete horas.

Vários serviços começaram a apresentar problemas no mesmo momento que o Amazon Web Services: Imagem: DownDetector/Reprodução

Como o Centro de contato de suporte da Amazon também funciona na rede AWS, os clientes não foram capazes de acionar a empresa durante a interrupção. O painel Service Health da Amazon, que a plataforma usa para fornecer atualizações de status, também foi afetado, resultando no atraso do reconhecimento do problema.

A AWS garante que está trabalhando em uma maneira de melhorar sua resposta a interrupções e planeja lançar uma versão renovada do Service Health Dashboard que deve ajudar os clientes a receber atualizações oportunas caso ocorra uma interrupção. “Queremos nos desculpar pelo impacto que esse evento causou em nossos clientes. Embora estejamos orgulhosos de nosso histórico de disponibilidade, sabemos como nossos serviços são essenciais para nossos clientes, seus aplicativos e usuários finais, e seus negócios. Sabemos que esse evento impactou muitos clientes de maneiras significativas. Faremos todo o possível para aprender com este evento e usá-lo para melhorar ainda mais nossa disponibilidade”, conclui o relatório.

Leia também:

Não é a primeira vez que a AWS apresenta erro

O Amazon Web Services já apresentou uma falha dessa magnitude em novembro de 2020, gerando queda nos serviços on-line. Na época, a Amazon destacou que a instabilidade atingiou principalmente a API Kinesis Data Stream, causando, como consequência, falhas em vários recursos que dependem dela.

Segundo o comunicado mais recente, isso inclui ACM, Amplify Console, API Gateway, AppMesh, AppStream2, AppSync, Athena, AutoScaling, Batch, CloudFormation, CloudTrail, CloudWatch, Cognito, Connect, DynamoDB, EventBridge, IoT Services, Lambda, LEX, Managed Blockchain, Marketplace, Personalize, Resource Groups, SageMaker, Support Console, Well Architected e Workspaces.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!