Uma falha nos serviços de gestão de redes na nuvem da Fastly, uma concorrente da Cloudflare, fez com que inúmeros sites — The Guardian, Reddit, The New York Times, Amazon, Twitter, as páginas da Casa Branca e do governo britânico, entre muitos outros — ficassem inacessíveis durante a manhã desta terça-feira. Foram 46 minutos em que não se soube o que é que ia acontecer. Até que voltou tudo ao normal e a Fastly, a empresa por detrás do acesso a este sites, disse que tinha resolvido o problema nesse espaço de tempo. Mas o que aconteceu? Um apagão destes pode voltar a acontecer?

Ao Observador, Miguel Pupo Correia, professor de engenharia informática no Instituto Superior Técnico, explica que, apesar de ainda não se saber exatamente o que está por detrás desta falha, o facto de estar relacionada com os serviços da Fastly ajuda a compreendê-la. Mas fazemos a salvaguarda: não se tem de preocupar com o que aconteceu estar terça-feira e é melhor preparar-se, porque pode voltar a acontecer. “É inevitável estas falhas acontecerem” de tempos em tempos, afirma o especialista.

Que empresa é esta por detrás dos sites que tiveram em baixo?

Para compreender o que está por detrás desta falha convém perceber o que é que a Fastly faz. Como referimos, esta empresa concorre com a Cloudflare, um nome que pode conhecer devido à recente polémica que a Comissão Nacional de Proteção de Dados (CNPD) criou relativamente aos Censos. Na prática, como explica Miguel Pupo Correia, estas empresas ajudam a “gerir” o tráfego que chega a alguns sites para garantir que funcionam rapidamente e que estão seguros.

Outra coisa que estas empresas permitem é reduzir o atraso no acesso a um site. Se uma pessoa estiver no outro lado do mundo, obtém uma cópia da Fastly guardada localmente na Austrália. Assim, reduz o tempo de acesso”, exemplifica o académico.

Há outras empresas que oferecem estes serviços, como a Akamai ou a Amazon CloudFront. “São empresas que não têm conteúdos seus e funcionam como uma espécie de intermediários” para qualquer site. “Quando uma pessoa põe um site ou um serviço na internet, se esse serviço for utilizado por muitas pessoas pode criar problemas”. Para evitar isso, estas empresas contratam um destes serviços, como os que a Fastly vende. Assim, qualquer utilizador possa aceder aos seus conteúdos com celeridade.

No entanto, os sites ficam dependente deste tipo de serviço. É por isto que as empresas que operam neste mercado, como a Akamai, a Fastly ou a Cloudflare, acabam por ter muitos clientes. Quando uma delas tem um problema, são então muitos os sites que são afetados. Foi isso que aconteceu na manhã desta terça-feira. Para evitar que isto aconteça com mais frequência, estas empresas costumam ter muitos mecanismos de segurança, mas que não não são infalíveis. É por isso que estes erros são um fenómeno “raro”, explica o especialista ao Observador.

Este tipo de serviço também pode ser resumido através da sigla “CDN”, que significa “Content Delivery Network” ou “Content Distribution Network” (significam o mesmo). Em português, diz-se algo como “Rede distribuição de Conteúdo”, ou seja, é a rede que permite às plataformas gerir estes pedidos de acesso a sites a partir de qualquer ponto do mundo. “É como se tivessem uma cópia do conteúdo” e, através dos seus mecanismos internos, garantem uma utilização semelhante, sem falhas e fluída, explica o especialista

Como são empresas que gerem muitos sites, também conseguem prevenir ataques massivos e evitar cessar o tráfego de uma página. De forma resumida, este tipo de ação define-se como “ataques DNS [Denial-of-Services]”: quando muitos computadores tentam aceder ao mesmo tempo a um conteúdo na internet para o mandar abaixo. Recorrer a uma destas empresas ajuda a impedir que estes ataques sejam bem sucedidos (há outras formas, mas podem ser mais dispendiosas ou não tão eficazes).

O que é uma falha na CDN?

O que terá gerado o problema desta manhã foi uma falha na CDN da Fastly. Por outras palavras, uma falha no sistema de distribuição de acesso a sites que a Fastly criou. “O problema é que uma destas empresas [a Fastly] falhou e ficou sem serviço”, explica o engenheiro informático. Por isso, foi tudo abaixo. Ou seja, “não foi culpa” dos sites, mas sim do serviço que utilizam para evitar que tenham falhas maiores. Qual foi o motivo? Ainda não se sabe. Contudo, em 46 minutos, a Fastly disse que o resolveu. Agora, como “tudo em computadores”, os erros “são inevitáveis”, e isto poderá voltar a acontecer, diz o especialista.

Há computadores bem geridos e computadores mal geridos, há computadores com redundâncias para evitar estes problemas e os que não têm”, explica Pupo Correia. “Estas empresas em geral são bem geridas”, adianta. No entanto, como uma falha nestas redes é algo inevitável, é provável que também falhem. Como diz o professor: “Acontece muito raramente, mas acontece”.

O que pode causar estas falhas?

Por detrás deste tipo de falhas pode estar uma panóplia de motivos. “São inesperados, pode ser um incêndio”, exemplifica Pupo Correia. Contudo, também pode ser algo pequeno, como um erro no código informático. Para exemplificar isto, o investigador lembra um caso de 2012, quando o servidor do Microsoft Azure foi abaixo, porque não sabia que o ano era bissexto.

“Chegou ao dia 29 e houve um problema no software”, conta. Como o programador que fez o código não contemplou que, de quatro em quatro anos, há mais um dia em fevereiro, o programa não conseguiu atualizar devidamente, conta. Esta falha, que foi revelada pela própria Microsoft, deixou inúmeros clientes sem acesso aos servidores. Em março, um incêndio nos servidores da francesa OVHCloud deixaram inúmeros sites em baixo, como conta a Reuters e também lembra o académico.

Por outras palavras, e como diz o ditado, “erros acontecem”. Resta esperar para saber o que dirá a Fastly, mas não deve haver motivo para preocupação. “Não terá sido nada de grave”, desdramatiza o investigador do Técnico.

Estas falhas podem demorar mais do que 46 minutos?

“Sim”, explica Miguel Pupo Correia. No exemplo da Microsoft, os serviços estiveram em baixo durante 12 horas. No caso da OVH, há dados que se “perderam para sempre”.

Como se percebeu com esta falha, cada empresa tem os seus mecanismos de proteção. Por exemplo, mal surgiu, a Amazon também foi abaixo. Contudo, poucos minutos depois, já estava de novo no ar. O mesmo aconteceu com o Twitter. Já o Reddit demorou mais tempo. Sites como os do The New York Times ou da CNN demoraram ainda mais. Tem a ver com a forma como estão construídos e que tipo de salvaguardas têm para estes cenários.

No entanto, esta falha não foi sentida em todo o mundo da mesma maneira. Como conta o The Guardian, que foi um dos sites de notícias afetados, enquanto outros experimentaram falhas massivas em toda a internet, os utilizadores em alguns locais, como Berlim, na Alemanha, não relataram nenhum problema. Isto estará relacionado com os servidores que a empresa tem em todo o mundo e como os gere.

As empresas têm mesmo de estar dependentes destes serviços?

“Estas dependências acontecem”, explica o especialista. Não é necessariamente um mal. “Temos o problema de haver fábricas de carros a diminuir a produção porque há problemas com chips, aqui é a mesma coisa”, diz Miguel Pupo Correia, que adianta que “estas empresas acabam por depender de coisas que nem esperamos”.

É também “inevitável” ter de se recorrer a um destes serviços. Pegando novamente no caso dos censos. No final, depois do aviso da CNPD, o Instituto Nacional de Estatística (INE) anunciou que ia deixar de utilizar os serviços da Cloudflare para salvaguardar os receios da comissão de dados. Porém, o INE explicou no mesmo anúncio que, por causa disso, o acesso ao site dos censos ia ser mais lento. Isto porque não tem a capacidade que uma empresa dedicada a estes serviços tem.

É por isto que esta opção é cada vez mais usada e estas empresas têm cada vez mais clientes. “Se for um site pequeno, não é preciso”, mas com o crescimento são “uma solução” para atenuar problemas. “Cada vez que um site começa a ter mais sucesso, tem mais pedidos [de acesso] e é preciso aumentar a capacidade” para responder a estes”. “Isto implica utilizar uma CDN”, diz Pupo Correia.

De tempos a tempos, outros serviços também deixam de estar acessíveis. O caso do Facebook, que tem “uma infraestrutura gigantesca” é paradigmático disso. Por já ser tão grande, como a Google, não está tão dependente destes serviços, tendo capacidade para ter os seus. Mesmo assim, em março deste ano, os serviços do Facebook estiveram inacessíveis por duas vezes — nos dias 3 e 19. O mesmo já aconteceu em 2018 e 2019 por inúmeras vezes. Contudo, como são serviços de uma só empresa, os danos não são tão visíveis.