Este documento es una traducción de la siguiente versión en inglés https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/. Esta versión traducida se proporciona únicamente para facilitar su comprensión y para mayor claridad. En caso de conflicto o ambigüedad, la versión en inglés siempre prevalecerá y tendrá prioridad.

Actualizado el 26-07-2024 a las 19:51 UTC

Informe preliminar posterior al incidente (Post Incident Review, o PIR)

Actualización de la configuración del contenido que ha afectado al Sensor Falcon y al Sistema Operativo Windows (BSOD o pantalla azul)

Resumen Ejecutivo PDF

Esto es un Informe Preliminar Posterior al Incidente (PIR) de CrowdStrike. Explicaremos detalladamente toda nuestra investigación en un próximo Análisis de la Causa Raíz (Root Cause Analysis o RCA) que se dará a conocer públicamente. A lo largo de este informe, hemos utilizado terminología general para describir la plataforma Falcon con el fin de que resulte más comprensible. La terminología empleada en otros documentos puede ser más específica y técnica.

¿Qué ha ocurrido?

El viernes 19 de julio de 2024, a las 04:09 UTC, como parte de la operativa rutinaria, CrowdStrike lanzó una actualización de la configuración del contenido para el Sensor de Windows para la recopilación de telemetría relacionada con nuevas técnicas de amenaza posibles.

Estas actualizaciones forman parte de los mecanismos habituales de protección dinámicos de la plataforma Falcon. La actualización causante del problema de la configuración del Contenido para Respuesta Rápida provocó un bloqueo del sistema Windows.

Los sistemas afectados son los equipos con sistema operativo de Windows que tienen instalada y en ejecución la versión 7.11 o posterior del sensor y que estaban en línea entre el viernes 19 de julio de 2024 a las 04:09 UTC y el viernes 19 de julio de 2024 a las 05:27 UTC y recibieron la actualización. Los equipos con sistema operativo de Mac y Linux no se vieron afectados.

El defecto en la actualización de contenido se revirtió el viernes, 19 de julio de 2024 a las 05:27 UTC. Los sistemas que se conectaron después de esa hora o que no estuvieron conectados durante el intervalo indicado no se vieron afectados.

¿Qué salió mal y por qué?

CrowdStrike proporciona actualizaciones de la configuración del contenido de seguridad a nuestros sensores de dos maneras: como Contenido del Sensor, que se envía directamente con nuestro sensor, y como Contenido para Respuesta Rápida, que está diseñado para responder al panorama cambiante de amenazas a una velocidad operativa.

El problema del viernes estuvo relacionado con una actualización del Contenido para Respuesta Rápida que contenía un error no detectado.

Contenido del Sensor

El Contenido del Sensor proporciona una amplia gama de funcionalidades para ayudar en la respuesta a los ataques de ciberdelincuentes. Siempre forma parte de una versión del sensor y no se actualiza dinámicamente desde la nube. El Contenido del Sensor incluye modelos de inteligencia artificial y aprendizaje automático (machine learning) en el sensor y comprende código escrito expresamente para proporcionar funcionalidades reutilizables a más largo plazo para los ingenieros de detección de amenazas de CrowdStrike.

Entre estas funcionalidades están los Template Types, que tienen campos predefinidos que los ingenieros de detección de amenazas pueden utilizar en el Contenido para Respuesta Rápida. Los Template Types se expresan en código. Todo el Contenido del Sensor, incluidos los Template Types, se somete a un exhaustivo proceso de Control de Calidad, que incluye los pasos de pruebas automatizadas, pruebas manuales, validación e implementación.

El proceso de lanzamiento de una versión del sensor comienza con pruebas automatizadas, tanto antes como después de fusionarse con nuestra base de código. Esto incluye pruebas unitarias, pruebas de integración, pruebas de rendimiento y pruebas de estrés. Esta fase culmina en un proceso de implementación del sensor por etapas, que comienza con su uso interno en CrowdStrike (dogfooding), seguido de la implementación entre un grupo de primeros usuarios. Posteriormente, se pone a disposición general de los clientes. Entonces, los clientes tienen la opción de seleccionar en cuáles de los dispositivos de su flota se instalará la última versión del sensor (“N”) o una versión anterior (“N-1”) o dos versiones anteriores (“N-2”), dependiendo de sus Políticas de Actualización del Sensor.

El evento del viernes 19 de julio de 2024 no fue activado por el Contenido del Sensor, que sólo se proporciona con el lanzamiento de un sensor Falcon actualizado. Los clientes tienen el control total sobre la implementación del sensor, lo que incluye el Contenido del Sensor y los Template Types.

Contenido para Respuesta Rápida

El Contenido para Respuesta Rápida se utiliza para ejecutar una serie de operaciones de correspondencia de patrones de comportamiento en el sensor, utilizando un motor altamente optimizado. El Contenido para Respuesta Rápida es una representación de campos y valores, con filtros asociados. Este Contenido para Respuesta Rápida se guarda en un archivo binario en formato propietario que contiene datos de configuración. No es código ni un driver (controlador) de kernel.

El Contenido para Respuesta Rápida se proporciona como “Template Instances”, que son expresiones particulares de un Tipo de Plantilla determinado. Cada Template Instance se asocia a comportamientos específicos para que el sensor los observe, detecte o prevenga. Las Template Instances tienen un conjunto de campos que se pueden configurar para que coincidan con el comportamiento deseado.

Dicho de otro modo, los Template Types representan una funcionalidad del sensor que habilita nueva telemetría y detección, y su comportamiento en tiempo de ejecución se configura de forma dinámica mediante la Template Instance (es decir, con Contenido para Respuesta Rápida).

El Contenido para Respuesta Rápida proporciona visibilidad y detecciones en el sensor sin necesidad de hacer cambios en el código del sensor. Los ingenieros de detección de amenazas utilizan esta funcionalidad para recopilar telemetría, identificar indicadores de comportamiento de atacantes y realizar detecciones y prevenciones. El Contenido para Respuesta Rápida son investigaciones de comportamiento, separadas y distintas de las capacidades de prevención y detección mediante inteligencia artificial en el sensor de CrowdStrike.

Prueba e implementación del Contenido para Respuesta Rápida

El Contenido para Respuesta Rápida se proporciona al sensor Falcon mediante las actualizaciones de la configuración del contenido. Hay tres sistemas principales: el Sistema de Configuración del Contenido, el Intérprete de Contenido y el Motor de Detección del Sensor.

El Sistema de Configuración del Contenido es parte de la plataforma Falcon en la nube, mientras que el Intérprete de Contenido y el Motor de Detección del Sensor son componentes del sensor Falcon. El Sistema de Configuración del Contenido se utiliza para crear Template Instances, que se validan y se implementan en el sensor a través de un mecanismo llamado Channel Files. El sensor almacena y actualiza sus datos de configuración del contenido mediante Channel Files, que se escriben en el disco en el equipo.

El Intérprete de Contenido del sensor lee el Channel File e interpreta el Contenido para Respuesta Rápida, lo que permite que el Motor de Detección del Sensor observe, detecte o evite actividades maliciosas, dependiendo de la configuración de las políticas del cliente. El Intérprete de Contenido está diseñado para manejar las excepciones de contenido potencialmente problemáticas.

Los Template Types recién lanzados se someten a pruebas de estrés en muchos aspectos, como la utilización de recursos, el impacto en el rendimiento del sistema y el volumen de eventos. Para cada Template Type, se utiliza una Template Instance específica para someter a una prueba de estrés a Template Type, comparándola con cualquier valor posible de los campos de datos asociados para identificar interacciones adversas del sistema.

Las Template Instances se crean y configuran mediante el Sistema de Configuración de Contenido, que incluye un Validador de Contenido que realiza comprobaciones para validar el contenido antes de su publicación.

Cronología de lo sucedido: Pruebas e Implementación del Template Type InterProcessCommunication (IPC)

Lanzamiento de contenido del sensor: el 28 de febrero de 2024 se puso a disposición general de los clientes la versión 7.11 del sensor, que introducía un nuevo Template Type IPC para detectar nuevas técnicas de ataque que hacen un uso indebido de las Named Pipes. Para este lanzamiento, se siguieron todos los procedimientos de prueba de Contenido del Sensor descritos anteriormente en la sección “Contenido del sensor”.

Prueba de Estrés del Template Type el 5 de marzo de 2024 se ejecutó una prueba de estrés del Template Type IPC en nuestro entorno de pre-producción , que consta de diversos sistemas operativos y cargas de trabajo. El Template Type IPC superó la prueba de estrés y se validó para su uso.

Lanzamiento de Template Instance a través del Channel File 291: el 5 de marzo de 2024, tras el éxito de la prueba de estrés, se lanzó a producción una Template instance IPC como parte de una actualización de la configuración del contenido. Posteriormente, se implementaron tres Template Instances IPC adicionales, entre el 8 de abril de 2024 y el 24 de abril de 2024. Estas Template Instances funcionaron en producción según lo esperado.

¿Qué pasó el 19 de julio de 2024?

El 19 de julio de 2024, se implementaron dos Template Instances adicionales de la Plantilla IPC . Debido a un error en el Validador de Contenido, una de las dos Template Instances pasó la validación a pesar de contener datos de contenido problemáticos.

Basándonos en las pruebas realizadas antes de la implementación inicial del Template Type (el 5 de marzo de 2024), en la confianza en las pruebas realizadas en el Validador de Contenido y en las correctas implementaciones previas de Template Instances IPC, estas instancias se llevaron a producción.

Cuando el sensor las recibió y las cargó en el Intérprete de Contenido, el contenido problemático del Channel File 291 provocó una lectura de memoria fuera de límites que desencadenó una excepción. Esta excepción inesperada no se pudo controlar correctamente, lo que provocó un bloqueo del sistema operativo Windows (BSOD o pantalla azul).

¿Cómo podemos evitar que esto vuelva a suceder?

Resiliencia y pruebas de software

•   Mejorar las pruebas del Contenido para Respuesta Rápida utilizando tipos de pruebas como:

•   Pruebas locales de desarrolladores
•   Pruebas de actualización y reversión de contenido
•   Pruebas de estrés, fuzzing (pruebas de exploración de vulnerabilidades mediante datos aleatorios) e inserción de errores
•   Pruebas de estabilidad
•   Pruebas de la interfaz de contenido

•   Añadir pruebas de validación adicionales al Validador de Contenido para el Contenido para Respuesta Rápida. Se está desarrollando  una nueva comprobación para evitar que este tipo de contenido problemático se implemente en el futuro.
•   Mejorar el control actual de errores  en el Intérprete de Contenido.

Implementación del Contenido para Respuesta Rápida

•   Poner en marcha una estrategia de implementación escalonada para el Contenido para Respuesta Rápida en la que las actualizaciones se implementen de manera gradual en el parque de sensores desplegados, comenzando con una implementación con valores controlados (canary).

•   Mejorar la supervisión del comportamiento del sensor y del sistema, mediante retroalimentación durante la implementación del Contenido para Respuesta Rápida, para guiar una implementación por fases.

•   Proporcionar a los clientes un mayor control sobre la entrega de las actualizaciones de Contenido para Respuesta Rápida, permitiéndoles una selección detallada de cuándo y dónde implementar estas actualizaciones.

•   Proporcionar detalles sobre las actualizaciones de contenido mediante notas de la versión a las que los clientes puedan suscribirse.

 

Actualizado el 26-07-2024 a las 19:51 UTC
Validación por terceros

•   Encargar múltiples revisiones del código de seguridad a terceras partes (empresas independientes).
•   Realizar revisiones independientes de los procesos de calidad de principio a fin, desde la fase de desarrollo hasta la implementación.

Además de este informe Preliminar Posterior al Incidente, CrowdStrike se compromete a publicar el Análisis Completo de la Causa Raíz una vez que se complete la investigación.