Falha Global Atrapalha Amazon, Fortnite e Snapchat

Uma grande interrupção global na segunda-feira afetou vários sites e aplicativos populares, incluindo Amazon, Fortnite e Snapchat, devido a um problema com a Amazon Web Services (AWS). A falha, centrada na região US-EAST-1 da AWS, causou problemas para diversos serviços online, incluindo Amazon.com, Prime Video e Alexa.

Fonte: CNN

Impacto da Falha

O problema na AWS impactou não apenas os serviços da Amazon, mas também plataformas como Coinbase, Perplexity, Venmo e Ring doorbells. Usuários relataram dificuldades em acessar contas bancárias de Lloyds, Halifax e Bank of Scotland. A extensão da falha demonstra a dependência da infraestrutura online de serviços de computação em nuvem como a AWS.

Resposta da Amazon Web Services

A AWS informou que identificou uma causa potencial para as altas taxas de erro relacionadas aos endpoints DynamoDB na região US-EAST-1. A empresa está trabalhando em várias frentes para acelerar a recuperação e recomendou que os clientes continuem tentando novamente as solicitações com falha.

Estamos vendo sinais significativos de recuperação. A maioria das solicitações agora deve ser bem-sucedida. Continuamos a trabalhar em um backlog de solicitações enfileiradas.

Detalhes Técnicos da Interrupção

De acordo com a AWS, o problema parece estar relacionado à resolução DNS do endpoint da API DynamoDB na região US-EAST-1. Essa falha também afetou outros serviços da AWS nessa região, incluindo atualizações IAM e tabelas globais DynamoDB. Engenheiros foram imediatamente mobilizados para mitigar o problema e entender a causa raiz.

Reações e Impacto nas Empresas

Empresas como Coinbase e Perplexity atribuíram suas interrupções à falha da AWS. Aravind Srinivas, CEO da Perplexity, afirmou que a causa raiz do problema era uma falha na AWS. Rafe Pilling, diretor de inteligência de ameaças da empresa de segurança Sophos, sugeriu que o problema parece ser uma questão de TI no lado do banco de dados.

O que esperar?

Embora a AWS relate sinais significativos de recuperação, alguns serviços ainda podem apresentar latência e um backlog de trabalho. A empresa promete atualizações contínuas sobre o progresso da resolução do problema. A falha serve como um lembrete da importância da redundância e resiliência na infraestrutura de serviços online. Qual será o impacto a longo prazo dessa falha na confiança dos serviços de nuvem?