Un excelente recordatorio: hacer balance de las interrupciones de CrowdStrike

El verano pasado, una actualización defectuosa del software CrowdStrike inutilizó millones de ordenadores, causó miles de millones de dólares en daños y puso de manifiesto que las empresas siguen sin ser capaces de gestionar los riesgos de terceros o de responder con rapidez y eficacia a las interrupciones.

“Fue un interesante estudio de caso sobre el impacto cibernético global”, afirma Charles Clancy, director de Tecnología de Mitre.

En respuesta a la interrupción, el 84% de las empresas están considerando diversificar sus proveedores de software y servicios, o ya lo están haciendo, según una encuesta de Adaptavist publicada a finales de enero.

Para las empresas que habían estado utilizando CrowdStrike, cambiar de proveedor podría parecer una solución obvia.

“Pero entonces, ¿qué plataforma de detección y respuesta de puntos finales debería utilizar en su lugar?”, pregunta Clancy. “Deshacerse de ellos no es la respuesta si son el mejor producto del mercado”.

Qué pasó

En el propio análisis de la causa raíz de CrowdStrike, el sistema Falcon de la empresa de ciberseguridad despliega un sensor en los equipos de los usuarios para monitorizar posibles peligros. El 19 de julio de 2024, CrowdStrike lanzó una actualización y los equipos de los usuarios se bloquearon.

La empresa lanzó una solución 78 minutos después, pero para ello era necesario que los usuarios accedieran manualmente a los dispositivos afectados, los reiniciaran en modo seguro y borraran un archivo defectuoso. La solución automática no se lanzó hasta tres días después.

Un total de 8,5 millones de ordenadores se vieron afectados. Como resultado de la interrupción, se cancelaron miles de vuelos y se retrasaron decenas de miles en todo el mundo. Varios hospitales también cancelaron cirugías, y bancos, aeropuertos, sistemas de transporte público, centros de emergencias y múltiples agencias gubernamentales, incluido el Departamento de Seguridad Nacional, también sufrieron interrupciones.

El coste total se estimó en 5.400 millones de dólares solo para las empresas de la lista Fortune 500, según un análisis de Parametrix, y los daños económicos totales podrían ascender a decenas de miles de millones, dijo a Reuters Nir Perry, director ejecutivo de la plataforma de riesgos de ciberseguros Cyberwrite. En comparación, el anterior récord de tiempo de inactividad más caro fue la interrupción de AWS de 2017, que costó a los clientes unos 150 millones de dólares.

Solo Delta tuvo más de 500 millones de dólares en pérdidas como resultado de operaciones paralizadas y miles de cancelaciones y retrasos de vuelos. En una demanda presentada por la aerolínea en octubre, Delta alegó que la actualización defectuosa se lanzó de forma insegura y que CrowdStrike debería pagar las pérdidas. En una contrademanda, CrowdStrike culpó a Delta de los problemas de la aerolínea, alegando que otras aerolíneas pudieron recuperarse mucho más rápido y que el contrato entre las dos empresas significaba que Delta no podía demandar por daños y perjuicios.

En total, el precio de las acciones de CrowdStrike cayó de 343 dólares el día antes de la interrupción a un mínimo de 218 dólares el 2 de agosto. Eso supone una pérdida de más de 30.000 millones de dólares o más de un tercio de su capitalización bursátil total.

Pero, a partir del 28 de enero, el precio de las acciones de la empresa superó los 400 dólares, un máximo histórico, gracias a una puntuación perfecta en una prueba del sector para la detección de ransomware. Y también a las mejoras en sus procesos de control de calidad, ya que CrowdStrike añadió un control para ese problema en particular después de la interrupción, así como otras pruebas, capas de implementación y otras salvaguardas. Los clientes también obtuvieron controles adicionales sobre cómo se implementan las actualizaciones.

Además, CrowdStrike contrató a dos proveedores independientes de seguridad de software para revisar el código del sensor Falcon, su control de calidad y sus procesos de lanzamiento, y también cambió la forma en que se lanzan sus actualizaciones: de forma más gradual, para “aumentar los anillos de despliegue”, dice Adam Meyers, vicepresidente senior de Operaciones de Contraataque de CrowdStrike. “Esto nos permite supervisar los problemas en un entorno controlado y revertir los cambios de forma proactiva si se detectan problemas antes de que afecten a una población más amplia·, declaró ante una subcomisión del Congreso en septiembre.

Pero mientras CrowdStrike realizaba cambios, empresas de todo el mundo reevaluaban la confianza que depositaban en sus proveedores, revisaban sus procesos de seguridad de software y volvían a centrar su atención en la resiliencia.

Confiar, pero verificar. Pensándolo bien, no confiar…

La interrupción fue una dura lección para Akamai, una empresa de distribución de contenidos, afirma la CIO y vicepresidenta sénior Kate Prouty. “Fue un recordatorio de lo increíblemente interconectado que está el mundo”, afirma.

Akamai no era cliente de CrowdStrike, pero utiliza servicios similares de proveedores externos para ayudar a proteger sus sistemas.

“Lo primero que hicimos fue auditar todas las soluciones que tenemos que tienen un agente que se encuentra en una máquina y tiene acceso a un sistema operativo para asegurarnos de que ninguna de ellas tiene actualización automática”, dice. “Cuando tienes un proveedor externo que introduce actualizaciones en un sistema automáticamente, eso te quita el control”.

Pero desactivar las actualizaciones automáticas puede ser un problema para algunas empresas. ¿Qué pasa si hay una corrección de seguridad urgente? Puede llevar tiempo probar cada actualización para asegurarse de que funciona antes de implementarla, tiempo del que pueden aprovecharse los delincuentes.

Si hay una amenaza de seguridad y una posible exposición, hay que pasar por el proceso de prueba lo más rápido posible, dice Prouty. “No tiene sentido parchear ni siquiera un problema de seguridad sin saber si va a causar daños en su entorno”, añade.

Akamai cuenta con una estructura que le permite realizar las pruebas rápidamente, y que implica tanto la automatización como la intervención humana. «Vale la pena hacer ese paso extra de diligencia porque puede ahorrarle problemas en el futuro», dice. Una vez finalizadas las pruebas, la actualización se implementa por etapas. “No elimina completamente el riesgo, pero sin duda reduce el riesgo de tener un impacto a gran escala”, añade.

Cuando es posible, Akamai evita utilizar herramientas que requieren agentes, aunque hay áreas, como la ciberseguridad, en las que son necesarias y los beneficios superan los riesgos. “Pero no teníamos muchas que auditar, y no encontramos nada mal configurado”, dice Prouty.

Akamai también cuenta con otras medidas para reducir el riesgo de problemas causados por software de terceros, como la microsegmentación y la autenticación basada en la identidad y los controles de acceso.

Contratos, auditorías y SBOM

Además de proteger la arquitectura empresarial de actualizaciones peligrosas y de software peligroso en general, hay otras medidas que las empresas pueden tomar para salvaguardar su cadena de suministro de software, empezando por la selección del proveedor y la firma del contrato. “Soy director de Información y tengo una posición envidiable, ya que vendemos soluciones de seguridad que funcionan muy bien”, afirma Prouty. “Nuestro equipo legal sabe exactamente qué pedir a la hora de negociar contratos. Si una empresa no está dispuesta a proporcionarnos lo que necesitamos para mantener nuestra empresa segura, entonces no hacemos negocios con ella”.

Según la Agencia de Ciberseguridad y Seguridad de Infraestructuras, es difícil para los proveedores invertir dinero en seguridad si los clientes no lo piden. Eso significa que, además de crear una filosofía de seguridad por diseño dentro de las empresas de software, la industria también necesita una filosofía de seguridad por demanda por parte del comprador.

Como parte de este esfuerzo, la CISA publicó en agosto una guía de adquisición de software para clientes empresariales gubernamentales que podría servir de modelo para las empresas en general.

La guía aborda cuatro fases de la propiedad del software: cadenas de suministro de software, prácticas de desarrollo, implementación y gestión de vulnerabilidades, y afirma que ayudan a las organizaciones que compran software a comprender mejor el enfoque de sus fabricantes de software en materia de ciberseguridad y a garantizar que la seguridad desde el diseño sea una consideración fundamental.

Tras el incidente de CrowdStrike, Akamai comenzó a revisar todos sus acuerdos con proveedores para asegurarse de que los contratos contaban con todas las protecciones necesarias. “Todavía estamos en proceso de examinarlo todo”, dice Prouty.

Y, de nuevo, no basta con que el proveedor diga que es seguro. Akamai, por ejemplo, utiliza herramientas que auditan la configuración de las soluciones de software en la nube, además de realizar otras comprobaciones de seguridad. “No van a eliminar el riesgo, pero lo reducirán significativamente”, afirma.

Otro enfoque que las empresas utilizan cada vez más es pedir a los proveedores que proporcionen una lista de materiales de software (SBOM). En una encuesta de Anchore publicada en noviembre, el 78% de las organizaciones planean aumentar su uso de SBOM en los próximos 18 meses.

Desarrollar resiliencia

Por desgracia, todas las precauciones del mundo solo pueden reducir el riesgo, no eliminarlo. Por eso, Akamai también planifica los peores escenarios y realiza simulacros para evaluar su capacidad de respuesta rápida y buscar áreas que necesitan mejoras. Inmediatamente después de que se produjera la interrupción de CrowdStrike, por ejemplo, Akamai realizó un ejercicio de simulación.

“Si esto nos hubiera pasado a nosotros, ¿cómo sería?”, pregunta Prouty. El ejercicio incluso implicó ejecutar el proceso de remediación de CrowdStrike. El ejercicio funcionó, dice, y Akamai habría podido recuperarse si la mala actualización hubiera pasado desapercibida en las comprobaciones.

Más empresas deberían realizar este tipo de simulacros de preparación, afirma Clancy, de Mitre. “Es necesario comprender el plan de respuesta ante incidentes y el plan de comunicación, y no solo tenerlos por escrito, sino practicarlos para que esas habilidades estén frescas”, afirma.

Además, es importante involucrar en estos ejercicios a algo más que al equipo de seguridad. “Cuando se produce un incidente, todo el negocio se ve afectado”, añade. “Los CIO deben involucrar a los demás ejecutivos de la empresa en estos ejercicios y planes de respuesta ante desastres. En el mundo real, son ellos los que toman las decisiones, no un director de respuesta a incidentes tres niveles más abajo”.

La resiliencia es especialmente importante, ya que las empresas no siempre pueden probar todo el software de terceros. “Auditar de forma independiente cada actualización de software no es práctico”, afirma Clancy. “Lo mejor es disponer de manuales para responder y recuperarse si ocurre algo así”. Pero el 84% de las organizaciones no contaban con un plan de respuesta a incidentes adecuado antes de que se produjera la interrupción de CrowdStrike, según la encuesta de Adaptavist. Y de las que sí tenían un plan, solo el 16% lo consideró eficaz durante la crisis. Afortunadamente, eso podría estar cambiando ahora.

Tras el apagón, el 54% de las organizaciones afirma estar implementando un plan de respuesta a incidentes o invirtiendo más en el que ya tienen. Además, aproximadamente la mitad está introduciendo o aumentando la inversión en una variedad de medidas de prueba y tecnologías de supervisión y observación durante los próximos 12 meses.

Próximos pasos

Guy Moskowitz, director ejecutivo y cofundador de Coro Cybersecurity, afirma que el gran problema es cuando los proveedores priorizan la velocidad y los beneficios por encima de las mejores prácticas. “CrowdStrike lanza alrededor de una docena de actualizaciones cada día”, afirma. Eso supone muchas oportunidades para que las cosas salgan mal. “Espero que se impulse una legislación que recomiende o incluso exija que todas las empresas de ciberseguridad implementen inmediatamente medidas de seguridad en entornos de prueba en su proceso de actualización de software”, añade. “De esta manera, detectarán cualquier contratiempo en un entorno seguro antes de implementar la actualización de forma generalizada entre los clientes”.

No es el único que quiere que el gobierno actúe. En la encuesta de Adaptavist, el 47% de los encuestados afirma que ahora apoya más que antes las regulaciones en materia de ciberseguridad y resiliencia, y el 48% apoya más las regulaciones en materia de garantía de calidad del software. Además, el 49% está de acuerdo con los requisitos obligatorios de notificación de incidentes.

En agosto, el Comité de Política Tecnológica de Estados Unidos de la Association for Computing Machinery (AMC) publicó una declaración en la que pedía una investigación exhaustiva del incidente para que tanto las empresas privadas como los reguladores puedan aprender a reforzar mejor la ciberinfraestructura, mejorar los programas de respuesta a incidentes y los procesos de reparación, mejorar la coordinación y la cooperación internacionales y desarrollar procesos de reclamación para estos incidentes.

“Cuando se producen errores, pueden ser graves, y este fue un incidente muy grave”, afirma Jody Westby, vicepresidenta del Comité de Política Tecnológica de Estados Unidos de AMC. “Las empresas tuvieron que pasar por ello y restablecer los sistemas, y tardaron semanas en recuperarse”.

Pero los clientes individuales no pueden hacer mucho, afirma.

“Los grandes proveedores no van a tener 5.000 contratos diferentes con 5.000 clientes diferentes”, afirma. “En algunos casos, podemos presionar con las cláusulas del contrato y decir: ‘Nos enviarás un informe SOC 2 cada año y certificarás que tienes todos estos controles’. Y puede que firmen y digan que sí, pero no lo sabrás realmente. La diligencia debida tiene sus límites”.

Lo que ha hecho el incidente de CrowdStrike es poner de relieve la necesidad de una mejor asistencia gubernamental, afirma.

La Association for Computing Machinery afirma que ya existe una organización que parece estar en una posición única para llevar a cabo una investigación sobre el incidente y publicar los resultados: la Junta de Revisión de Seguridad Cibernética de la CISA. En su declaración, la ACM instó al gobierno de EE. UU. a proporcionar a la CSRB los recursos necesarios para llevar a cabo esta investigación. Eso habría estado bien, pero en su lugar, el Departamento de Seguridad Nacional la disolvió, alegando “mal uso de los recursos”. La Junta de Seguridad y Protección de la IA también fue disuelta. Esto es un problema particular porque, al igual que con CrowdStrike, existe una creciente dependencia de un pequeño número de proveedores. ChatGPT de OpenAI, Claude de Anthropic, Gemini de Google y Llama de Meta son la base de casi todas las aplicaciones empresariales de IA, dice Chuck Herrin, CISO de campo en la empresa de seguridad F5.

“Nuestra prisa por adoptar la IA sin la correspondiente inversión en seguridad y resiliencia sugiere que nos estamos exponiendo a fallos potencialmente catastróficos que podrían hacer que el incidente de CrowdStrike parezca menor en retrospectiva”, afirma. “El incidente de CrowdStrike requirió acceso físico a los sistemas afectados para su recuperación, pero las organizaciones están creando ahora dependencias de IA tan profundas que la intervención manual puede llegar a ser imposible”.

Read More from This Article: Un excelente recordatorio: hacer balance de las interrupciones de CrowdStrike
Source: News