Uma falha técnica no sistema de coleta de logs da Microsoft resultou na perda de dados essenciais por quase um mês, expondo empresas a potenciais riscos de segurança.
A Microsoft, uma das maiores empresas de tecnologia do mundo, enfrenta mais uma crise de segurança após confirmar a perda de logs críticos de segurança de clientes empresariais. Entre os dias 2 e 19 de setembro de 2024, a empresa foi incapaz de coletar e registrar corretamente dados essenciais que são usados para monitorar atividades suspeitas e detectar ataques cibernéticos. Essa falha, que afetou vários serviços na plataforma Azure, resultou em um aumento potencial do risco de ataques cibernéticos passarem despercebidos, colocando empresas em uma posição vulnerável.
Este artigo explora o incidente, suas causas, os principais serviços afetados, o impacto sobre as empresas e o que isso significa para a reputação da Microsoft em termos de segurança.
O problema teve origem em uma correção aplicada pela Microsoft para resolver um limite no serviço de coleta de logs. No entanto, essa correção introduziu um novo bug que desencadeou uma condição de “deadlock” no sistema. Isso significa que, ao tentar alterar rapidamente o endpoint de upload de telemetria, o agente responsável pela coleta de dados acabou travando, impossibilitando o envio de informações críticas para os servidores da Microsoft.
Apesar de o agente continuar a coletar os dados localmente, ele não conseguia transmiti-los devido ao deadlock. Além disso, o sistema utilizava um cache local para armazenar os dados temporariamente, mas esse cache tinha um limite. Os dados mais antigos eram sobrescritos quando o limite era atingido. Como resultado, os logs que estavam além da capacidade do cache local foram perdidos permanentemente.
A perda de logs impactou uma série de serviços da Microsoft, sendo que alguns deles são essenciais para o monitoramento e a segurança de redes empresariais. Entre os serviços afetados, os mais notáveis incluem:
1. Microsoft Entra: O sistema de autenticação e gerenciamento de identidade da Microsoft sofreu interrupções nos registros de login e atividades, afetando o fluxo de dados críticos para outros produtos de segurança como por exemplo o Microsoft Sentinel, Microsoft Purview e Microsoft Defender for Cloud. Esses serviços dependem desses dados para identificar comportamentos suspeitos.
2. Microsoft Sentinel: Como uma plataforma de segurança baseada em logs, o Sentinel foi gravemente impactado. A ausência de dados de segurança impossibilitou a análise completa de eventos e a geração de alertas eficazes. Contudo, a falha da Microsoft na coleta de logs, prejudicou a capacidade de muitas empresas de monitorar e detectar ameaças em suas redes.
3. Azure Logic Apps: A interrupção também afetou a telemetria do Log Analytics e dos Logs de Recursos. Os logs são essenciais para a execução de processos automatizados e a detecção de anomalias no Azure.
4. Azure Monitor: Utilizado para monitorar e analisar a saúde e o desempenho de outros recursos na nuvem, apresentou falhas nas consultas baseadas em logs. A falha da Microsoft por não coletar os logs, comprometeu a criação de alertas automatizados, tornando a detecção de problemas mais lenta e menos eficaz.
5. Power Platform: Relatórios e exportações de dados para o Data Lake também foram afetados, com discrepâncias que impactaram a visualização e análise de dados importantes para a administração de licenças e uso de recursos.
6. Azure Virtual Desktop e APIs de Healthcare no Azure: Estes serviços sofreram com a perda parcial de logs de diagnóstico e atividade, impactando empresas que dependem desses dados para garantir conformidade e segurança.
Certamente a perda dos logs de segurança teve um impacto direto sobre as empresas que dependem da infraestrutura da Microsoft para suas operações e segurança. Muitas dessas empresas utilizam ferramentas como o Microsoft Sentinel para identificar atividades suspeitas e monitorar possíveis invasões. Sem os logs de segurança completos, houve um aumento no risco de ataques cibernéticos passarem despercebidos, principalmente tentativas de login não autorizadas e tráfego malicioso.
Algumas empresas relataram que não receberam notificação imediata da Microsoft sobre a perda dos dados, o que agravou o problema. Especialistas em segurança como Kevin Beaumont afirmaram que empresas desinformadas podem ter ficado mais vulneráveis do que o necessário. Como resultado, a falha também reacendeu críticas contra a Microsoft por sua política de cobrar por recursos avançados de registro, que muitas vezes são vitais para identificar ataques complexos.
A Microsoft respondeu rapidamente à falha, corrigindo o bug que causou a perda dos logs. No entanto, a empresa enfrentou críticas não só pelo incidente em si, mas também por questões relacionadas ao acesso pago a registros avançados. Em 2023, debateram amplamente esse tema, quando criticaram a Microsoft por não oferecer logs avançados gratuitamente para todos os clientes. A princípio na época, atribuíram ataques cibernéticos a hackers chineses, que expuseram falhas na segurança do Microsoft Exchange e do Microsoft 365. Apontaram a falta de registros completos como um fator que retardou a detecção do ataque.
Em resposta a essas críticas, a Microsoft expandiu o acesso a registros avançados para mais clientes em fevereiro de 2024. A empresa agora oferece ferramentas de monitoramento mais acessíveis, mas o incidente recente trouxe de volta o debate sobre a necessidade de maior transparência e acessibilidade em relação aos dados de segurança.
Este incidente destaca um ponto crucial para a segurança na era da computação em nuvem: a dependência crescente de logs e registros detalhados para detectar ameaças em tempo real. À medida que mais empresas migram para a nuvem, a confiabilidade e disponibilidade desses dados tornam-se ainda mais críticas.
Sobretudo, a falha da Microsoft lembra que, mesmo as maiores empresas de tecnologia, não estão imunes a falhas técnicas. Sistemas sofisticados de monitoramento não garantem imunidade. As empresas devem se preparar para a perda temporária de dados e implementar estratégias de mitigação. Essas estratégias ajudam a reduzir os danos causados por eventos semelhantes.
Além disso, este incidente levanta questões sobre a importância de alertar clientes rapidamente e de maneira eficaz sobre qualquer problema que possa afetar a segurança de suas redes. A transparência é um componente essencial na construção da confiança entre fornecedores de serviços de nuvem e seus clientes.
A perda de logs de segurança críticos pela Microsoft é um evento significativo que ressalta a importância de uma infraestrutura de monitoramento robusta e confiável. Contudo, a falha técnica que resultou na perda de dados por quase um mês trouxe à tona questões sobre transparência, confiança e a necessidade de políticas de segurança mais acessíveis para todos os clientes. Embora a Microsoft tenha corrigido o problema, as empresas que dependem dos serviços de segurança da Microsoft sentirão o impacto desse incidente por algum tempo.
Para as organizações, a falha na coleta de logs pela Microsoft, alerta a necessidade de revisar políticas de segurança e se preparar para falhas na coleta de dados. Além disso, lembra que a segurança em nuvem exige vigilância contínua e colaboração estreita entre provedores de serviços e clientes.