El primer momento fue de caos. A medida que se encendían ordenadores y aparecía la temida pantalla azul de la muerte, o que fallaban TPV, o no se podía sacar tarjetas de embarque, la noticia corría como la pólvora a medida que la temida pantalla azul de la muerte aparecía en más equipos. En aquellas empresas afectadas, el personal de TI era reclamado por, básicamente, todos los departamentos. Y no eran pocas las organizaciones afectadas; en España, por ejemplo, Aena, Iberdrola o Visa vieron sus operaciones interrumpidas. La culpable: una actualización defectuosa de la plataforma Falcon de la empresa de ciberseguridad CrowdStrike para Windows. Como recuerdan desde IDC, no es la primera vez que algo como esto sucede. Citan, entre otros, cuando en 2010 McAfee causó un bucle de reinicios por culpa de un nuevo fichero de programa o, más recientemente, en 2021, cuando Fastly provocó una caída global por un fallo de software.
Sin embargo, para Ignacio Cobisa, consulting manager en la firma de inteligencia, este podría ser de los incidentes con más impacto. “Paró sectores como el aéreo, el sanitario, el financiero”, destaca, “ha sido de los que más impacto ha tenido”. Para Cobisa, un factor clave en el impacto del CrowdStrike fue el momento elegido para la actualización: un viernes de madrugada, en pleno verano. En su análisis, apunta también a un fallo en el proceso: “Un error humano no puede generar un caos de este tipo. Es decir, ahí hay un procedimiento que está mal”. La prueba de la actualización, añade, tendría que haber sido en distintas configuraciones, para asegurar que funcionaba correctamente en todas.
“Enseguida se vio que no era ningún problema de seguridad, era un problema de fallo informático”, expone José Nombela (UNIE)
Cómo se llega al impacto global
En el aspecto positivo, la solución al problema no era complicada. O así lo destaca Juan José Nombela, director del Máster en ciberseguridad de UNIE Universidad, para quien, tras esa primera parte de desconcierto inicial en la que no se sabía si era un ciberataque, luego se funcionó de forma ágil. “La transparencia del fabricante fue muy grande, y eso es de agradecer, pues enseguida se vio que no era ningún problema de seguridad, era un problema de fallo informático”. El agravante, coincide con Cobisa, fue el momento en el que ocurrió: un viernes y en plena operación salida de verano. También la amplia penetración de Windows. “Aquellos que tenían más, vamos a decir, huevos puestos en la cesta de Microsoft, lógicamente fueron los que más se vieron afectados”. Destaca que en algún caso, como el de los aeropuertos, parte del por qué se alcanzó una mayor dimensión es que hubo que actualizar los equipos uno a uno. AENA ha rechazado participar en este reportaje.
“Todo es digital”, señala Cobisa, “da lo mismo que sea intencionado, que no sea intencionado. Lo importante es que seamos capaces de levantarlo rápido y de una manera segura”
Otra de las grandes empresas afectadas fue Correos. Su directora de Transformación Digital y Tecnología, Isabel Alcantarilla, explica cómo fueron los primeros momentos, desde que sus sistemas de detección de incidentes avisaron del problema. “Al ser un número elevado de sistemas se procedió a la aplicación del protocolo de ‘Activación de incidencias críticas de la compañía’. Según lo establecido en dicho protocolo, se arrancó una ‘war room’ con todos los equipos implicados de la Dirección de Transformación Digital y Tecnología y de nuestros soportes de alta criticidad de nuestros fabricantes con los protocolos de comunicación interna”. El problema se detectó en unos 20 minutos a partir de la activación de alertas, y la activación de los protocolos permitió recuperar sus sistemas críticos en aproximadamente una hora y 45 minutos, destaca. “No obstante, hubo sistemas de terceros que requirieron de un tiempo adicional”. La organización ha creado un equipo de trabajo para analizar la respuesta a la incidencia. Además, se ha mejorado la monitorización de las actualizaciones de proveedores y se ha creado un protocolo de restauración de librerías del producto para poder volver a una versión anterior, en caso de problemas. Las lecciones a medio/largo plazo de Correos pasan por el trabajo con el fabricante para hacer verificaciones en entorno controlado, antes de una distribución masiva, “además de estudiar nuevas alternativas tecnológicas como soluciones de recuperación ante desastres de los sistemas de información”.
Una situación similar se vivió en Cruz Roja. Su CIO, Sandra Pedraza, explica que el principio hubo mucha confusión, pero en seguida empezó a circular la noticia de la actualización de Crowdstrike. “Tuvimos una etapa de 30 minutos de desconcierto hasta que empezaron a llegar todas las comunicaciones”. En su caso, les sirvió para aprender la gestión de estos incidentes, destaca Pedraza: con un 20% de equipos afectados, “activamos todos los canales de comunicación que da una incidencia a nivel mundial”, lo que “redujo considerablemente el ruido”. En su caso, han puesto en marcha una política para el control de pruebas y la calidad de los software. “Muchas veces todos los vendors, la parte de sistemas operativos y antivirus, no le haces un control de calidad”, explica: se piensa que por defecto ya están hechos. Ahora, en Cruz Roja esta certeza se pondrá a prueba: “Lo que sí hemos hecho es implantar políticas para probarlo, actualizar las versiones en equipos no críticos, esperar un tiempo y luego a los que son servicios críticos hacerles la instalación”.
Las lecciones a medio/largo plazo de Correos pasan por el trabajo con el fabricante para hacer verificaciones en entorno controlado, antes de una distribución masiva, “además de estudiar nuevas alternativas tecnológicas como soluciones de recuperación ante desastres de los sistemas de información”, explica su CIO, Isabel Alcantarilla
Un concepto común como enseñanza: resiliencia
Si hay una idea que permea todos los discursos es, sin duda, uno de los conceptos de moda en tecnología: la ciberresiliencia. Marcado por las normativas europeas lanzadas en los últimos tiempos, algunas aún pendientes de entrar en vigor, este concepto se focaliza no tanto en la respuesta posterior sino en la prevención, en crear un ecosistema resistente y con respuesta ágil ante cualquier tipo de contratiempos, no solo ciberataques: una combinación de intentar que no haya incidentes con saber cómo reaccionar cuando, no si, los hay. Es, también, una de las principales lecciones que extrae Gartner de la caída global de sistemas: poner el foco en una resiliencia “de naturaleza holística”, que debe “conectarse con objetivos estratégicos generales, mediante un enfoque de arriba hacia abajo”.
“Todo es digital”, señala Cobisa, “da lo mismo que sea intencionado, que no sea intencionado. Lo importante es que seamos capaces de levantarlo rápido y de una manera segura”. Aquí, dice, es clave este concepto de resiliencia operativa. “Viene en todo lo que son las nuevas normativas de la Unión Europea: DORA, NIS2…”, aporta Pedraza. Nombela pone el foco en las firmas no afectadas directamente por las normas, ya que “tienen que trabajar también para estar preparados ante cualquier contingencia”. “Cuando no hay una obligación impuesta por la ley, las empresas se relajan. Creen que no les va a ocurrir, no tienen tiempo, no tienen dinero o no quieren dedicarle el suficiente, pero vamos, punto número 1, desde luego, es la la ciberresiliencia”. Esto incluye parte preventiva y parte reactiva, como tener equipos de backup, copias de seguridad o una serie de actuaciones ensayadas.
Otra idea que se repite: el plan de contingencia. Nombela es consciente de que el gasto puede ser limitante. A la hora de diversificar y buscar alternativas en vez de tener un único proveedor, una de las posibles estrategias para evitar afectaciones como en el caso del Crowdstrike, comprende que las empresas deben hacer un análisis de riesgos: evaluar si merece la pena la inversión y la complejidad que lleva pareja para algo que puede ser una circunstancia extraordinaria, como este caso.
IDG-Owned
Con un 20% de equipos afectados, Cruz Roja activó “todos los canales de comunicación que da una incidencia a nivel mundial”, lo que “redujo considerablemente el ruido”, explica Sandra Pedraza, su CIO en España
Sobre la ciberresiliencia, Pedraza añade: “Estas normativas vienen a que estés preparado ante cualquier situación, no únicamente con ‘los malos’, sino también a nivel interno de tu cadena de suministro, porque también esto ha sido parte de la cadena de proveedores”, añade, poniendo el foco en uno de los asuntos clave. Son los “ecosistemas de la interrelación”, como dicen desde IDC. Para Nombela, “lo que está fallando también es la cadena de suministro”, lo que implica que todas las medidas preventivas y de respuesta deben exigirse también a los proveedores. “La llegada de los sistemas en cloud ha creado un nuevo paradigma en las actualizaciones de los sistemas de información”, añade Alcantarilla, “y, por tanto, debemos disponer de un modelo de trabajo con los fabricantes diferente al actual” que, considera, no ha funcionado. “Es fundamental disponer de sistemas de monitorización avanzados, un nuevo modelo de gobierno con los fabricantes y un mayor control del servicio y mantenimiento de los productos contratados”.
Por último, Nombela destaca la necesidad de “tener un buen plan de comunicación a los clientes cuando se produce una interrupción del servicio y se tienen que activar los planes de contingencia”. Pedraza añade: “Estamos inmersos en un sistema tan cambiante y tan complejo que puede volver a pasar. La probabilidad es alta. No creo que ese sea un hecho aislado. Yo creo que tiene que servir de lección, que tenemos que estar preparados para cualquier eventualidad”.
Read More from This Article: Lecciones del caso Crowdstrike para los CIO
Source: News