Em meio ao Carnaval, uma de dor de cabeça para sites do mundo todo se espalhou na internet. Na terça-feira, 28, os servidores da Amazon caíram, levando junto grande parte da internet por mais de quatro horas. Nesta quinta-feira, 2, empresa revelou que o problema que parou a rede foi causado por um erro de digitação.
Na manhã do dia 28, membros da equipe dos serviços web S3 estavam depurando o sistema de faturamento e, por isso, precisavam deixar um pequeno número de servidores fora do ar. “Infelizmente, um dos comandos foi inserido incorretamente”, afirma a Amazon, explicando que um número maior de servidores do que o esperado foi colocado off-line.
Um dos subsistemas afetados é responsável por gerenciar os metadados e informações de localização de todos os objetos no S3. “Queremos os desculpar pelo impacto que esse evento causou para nossos clientes”, declara a companhia.
Depois do acidente, os sistemas tiveram que ser completamente reiniciados, procedimento que leva bastante tempo. “O S3 tem experimentado um crescimento maciço nos últimos anos e o processo de reiniciar esses serviços e executar as verificações de segurança necessárias para validar a integridade dos metadados levou mais tempo do que o esperado”, disse a empresa.
Como resultado, a Amazon explica que está realizando mudanças para que os sistemas se recuperem mais rapidamente, além de evitar erros de digitação. A gigante de tecnologia também se comprometeu a mostrar, em sua ferramenta de informação, exatamente como andam os servidores.
Via TheVerge