Falha foi a pior da história do chatbot (Imagem: agrofruti/Shutterstock)
A OpenAI identificou um novo serviço de telemetria como a causa de uma das maiores interrupções já enfrentadas por sua plataforma. Na última quarta-feira (11), serviços, como o ChatGPT, o gerador de vídeos Sora e a API para desenvolvedores, ficaram fora do ar por cerca de três horas, a partir das 20h (horário de Brasília).
Em relatório publicado na noite de quinta-feira (12), a empresa descartou a possibilidade de incidentes de segurança ou falhas em lançamentos recentes de produtos. Segundo a OpenAI, o problema foi causado pela implantação de serviço de telemetria para coletar métricas do Kubernetes, plataforma de código aberto usada para gerenciar contêineres e aplicativos em ambientes isolados.
“A configuração deste novo serviço causou, de forma não intencional, operações de API do Kubernetes que demandaram muitos recursos”, explicou a empresa. Isso resultou na sobrecarga dos servidores de API do Kubernetes, afetando o controle central de grandes clusters utilizados pela OpenAI.
Leia mais:
Para evitar incidentes semelhantes, a OpenAI anunciou medidas, como aprimoramentos em testes de infraestrutura, implementação em fases com monitoramento mais rigoroso e mecanismos para garantir que seus engenheiros possam acessar os servidores Kubernetes em qualquer situação.
“Pedimos desculpas pelo impacto que esse incidente causou a todos os nossos clientes – desde usuários do ChatGPT até empresas que dependem de nossos produtos”, declarou a OpenAI. “Ficamos aquém de nossas próprias expectativas.”
A falha evidenciou os desafios que empresas enfrentam ao gerenciar sistemas complexos e dependentes de novas tecnologias, especialmente quando estas se tornam pilares de serviços globais, como a inteligência artificial (IA).
Esta post foi modificado pela última vez em 14 de dezembro de 2024 19:02