Facebook explica o erro que provocou interrupção global por mais de 6h

O comando dos engenheiros desconectou acidentalmente a rede da empresa do resto do mundo, diz o blogpost

O Facebook disse que um erro durante a manutenção de rotina de sua rede de centros de dados causou uma série de problemas que derrubaram suas plataformas por mais de seis horas na segunda-feira.

Em uma postagem de blog publicada na terça-feira, Santosh Janardhan, vice-presidente de engenharia, disse que a paralisação global que viu o Facebook, Instagram e WhatsApp apagarem para bilhões de usuários começou quando os engenheiros da empresa emitiram um comando que desconectou acidentalmente os data centers do Facebook do resto do mundo.

A interrupção do Facebook destaca a dependência global de seus serviços

Janardhan descreveu o erro como originado no “backbone global” da empresa de cabos de fibra ótica e data centers.

“Essa interrupção foi desencadeada pelo sistema que gerencia nossa capacidade de rede de backbone global”, escreveu Janardhan. “O backbone é a rede que o Facebook construiu para conectar todas as nossas instalações de computação, que consiste em dezenas de milhares de quilômetros de cabos de fibra óptica cruzando o globo e conectando todos os nossos centros de dados.”

“Durante um desses trabalhos de manutenção de rotina, um comando foi emitido com a intenção de avaliar a disponibilidade da capacidade do backbone global, que involuntariamente derrubou todas as conexões em nossa rede de backbone, desconectando efetivamente os data centers do Facebook em todo o mundo”, disse Janardhan.

A empresa disse que seus sistemas foram projetados para auditar comandos para evitar erros, mas a ferramenta de auditoria encontrou um bug e não conseguiu interromper o comando que causou a interrupção. A interrupção interrompeu as ferramentas que os engenheiros normalmente usariam para investigar e reparar tais interrupções, tornando a tarefa ainda mais difícil.

A interrupção foi a maior que a Downdetector, uma empresa de monitoramento da web, disse que já viu.

  • O Facebook disse que não foi causado por atividades maliciosas.

Enquanto os usuários perderam o acesso a um dos aplicativos de mensagens mais populares do mundo – o WhatsApp tem mais de 2 bilhões de usuários – os funcionários também foram impedidos de acessar as ferramentas internas.

A empresa informou que enviou uma equipe de engenheiros ao local de seus data centers para tentar depurar e reiniciar os sistemas.

No entanto, a empresa demorou mais para conseguir que os engenheiros trabalhassem nos servidores devido à segurança física e do sistema em vigor.

Mesmo depois que a conectividade de rede foi restaurada aos data centers, o Facebook disse que temia que um aumento no tráfego pudesse causar o travamento de seus sites e aplicativos.

Mas, como a empresa havia feito exercícios para se preparar para essas situações, o acesso aos serviços voltou com relativa rapidez.

“Cada falha como essa é uma oportunidade de aprender e melhorar”, escreveu Janardhan. “De agora em diante, nosso trabalho é … garantir que eventos como este aconteçam o menos possível.”

A paralisação ocorreu durante uma semana difícil para o Facebook, quando o Senado dos EUA realizou uma audiência com um ex-funcionário que se tornou denunciante que acusou a rede social de colocar os lucros antes da segurança das pessoas, uma afirmação que o Facebook contesta.

Fonte: The Guardian