Início Política Erro humano causou interrupção da Rogers em 2022, ‘deficiências’ do sistema pioraram:...

Erro humano causou interrupção da Rogers em 2022, ‘deficiências’ do sistema pioraram: relatório

4

A interrupção da Rogers em 2022, que deixou 12 milhões de pessoas sem serviços sem fio e com fio, foi causada por erro humano e agravada por “deficiências” de gerenciamento e sistema, diz uma revisão independente conduzida para o regulador de telecomunicações do Canadá.

O relatório de revisão também afirma que as medidas tomadas pela Rogers desde a interrupção são “satisfatórias para melhorar a resiliência e a confiabilidade da rede da Rogers, bem como para abordar a causa raiz da interrupção de julho de 2022”.

A interrupção de 15 horas começou no início da noite de 8 de julho e deixou pessoas e empresas sem acesso aos seus serviços de celular, telefone residencial, Internet e 911.

A Comissão Canadense de Rádio, Televisão e Telecomunicações (CRTC) contratou a Xona Partners em setembro de 2023 para realizar a revisão e determinar o que causou a interrupção.

A consultoria de engenharia também foi encarregada de verificar se as medidas tomadas pela Rogers desde a interrupção são suficientes para evitar outro incidente.

As descobertas da Xona Partners estavam contidas no resumo executivo do relatório de revisão, divulgado neste mês. O CRTC diz que o relatório completo contém informações sensíveis e será divulgado em forma redigida em uma data posterior, não especificada.

O resumo do relatório diz que nas semanas que antecederam a queda, a Rogers estava passando por um processo de sete fases para atualizar sua rede. A queda ocorreu durante a sexta fase da atualização.

“A interrupção de julho de 2022 é atribuída a um erro na configuração dos roteadores de distribuição na rede IP da Rogers”, diz o relatório.

A equipe da Rogers causou o desligamento, diz o relatório, ao remover um filtro de controle que direcionava as informações para o destino apropriado.

Sem o filtro instalado, uma enxurrada de informações era enviada para a rede central da Rogers, sobrecarregando e travando o sistema minutos após a remoção do filtro de controle.

Algoritmo designou atualização de rede como risco ‘baixo’

O relatório diz que a rede principal da Rogers gerencia dados sem fio e com fio tanto internamente, dentro da empresa, quanto externamente, para clientes externos e provedores de serviços.

“Com as redes sem fio e com fio compartilhando uma rede central de IP comum, o escopo da interrupção foi extremo, pois resultou em uma perda catastrófica de todos os serviços”, diz o relatório.

Ter serviços sem fio e com fio compartilhando a mesma rede é uma prática “comum a muitos provedores de serviços”, diz o relatório, acrescentando que as empresas consideram essa uma maneira eficiente de “equilibrar custos com desempenho”.

Desde então, a Rogers anunciou que desenvolverá uma nova rede separada para seus sistemas sem fio, mantendo os serviços com fio na antiga rede principal. O relatório diz que o trabalho está em andamento.

Homens e mulheres estão do lado de fora de uma cafeteria em uma rua movimentada da cidade. Todos estão olhando para seus celulares.
Pessoas usam aparelhos eletrônicos do lado de fora de uma cafeteria em Toronto durante uma queda de energia nacional da Rogers na sexta-feira, 8 de julho de 2022. (Cole Burston/The Canadian Press)

A revisão diz que, como os cinco primeiros estágios da atualização da rede ocorreram sem incidentes, “o algoritmo de avaliação de risco rebaixou o nível de risco para a sexta fase” da atualização.

Designar os riscos na fase seis como “baixos” significava que a equipe da Rogers poderia evitar níveis adicionais de escrutínio e aprovações à medida que a atualização prosseguia, mesmo que isso “contrariasse as normas do setor”, diz o relatório.

A Rogers diz que instalou um novo algoritmo de avaliação de risco para resolver o problema.

O resumo executivo da análise da Xona Partners também diz que a “falha de rede poderia ter sido evitada” se a Rogers tivesse “mecanismos de proteção contra sobrecarga” limitando a quantidade de informações canalizadas para a rede principal.

A revisão recomenda que todas as redes de telecomunicações no Canadá implementem mecanismos de proteção contra sobrecarga para suas redes principais.

Desafios na restauração da rede

Um problema central que frustrava os esforços da Rogers para fazer seus sistemas voltarem a funcionar depois que eles caíram era a incapacidade da corporação de se comunicar adequadamente.

O relatório diz que quando a rede principal caiu, os funcionários remotos não conseguiram acessar os sistemas da Rogers ou usar a internet e não conseguiram ficar online usando outros provedores de serviços.

“A Rogers teve que enviar funcionários para locais remotos para acessar fisicamente os roteadores afetados, o que atrasou os esforços de recuperação da rede”, diz o relatório.

Desde então, todos os membros da equipe de resposta a incidentes e crises da Rogers receberam acesso de terceiros à internet para “manter as capacidades de comunicação durante interrupções”.

A revisão também diz que a equipe da Rogers não conseguiu acessar registros de erros críticos detalhando a causa raiz da interrupção até 14 horas após o início da interrupção, o que “impactou negativamente os esforços de recuperação da interrupção”.

John Lawford, diretor executivo do Public Interest Advocacy Centre em Ottawa, vem pressionando Rogers e o CRTC por mais transparência sobre a interrupção.

Ele criticou o CRTC por levar dois anos para entregar um relatório sobre a interrupção, descrevendo-o como uma “maquiagem no sentido de que tanto o CRTC quanto a Rogers foram totalmente poupados”.

“O relatório faz uma alegação de que Rogers retificou o problema e não há evidências suficientes para que eu veja isso”, disse Lawford. “Este é apenas o ponto de vista de um especialista em particular.”

Fuente