本文件為以下英文版內容譯文 https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/。此譯本僅供參考和方便之用。如有任何衝突或歧義,應一律以英文版為準。

更新時間 2024-07-27 0500 UTC

初步事後審查 (PIR)

影響 Falcon 感測器和 Windows 作業系統的內容設定更新 (BSOD)

執行摘要 PDF

本文為 CrowdStrike 初步事後審查 (PIR)。我們將在即將公開發布的根本原因分析中詳細說明此次的全面調查。在整個 PIR 文件中,我們會使用通用術語來描述 Falcon 平台,以提升可讀性。其他文件中的術語可能更具體且更具技術性。

事件概述

世界標準時間 2024 年 7 月 19 日星期五 04:09,作為常規作業的一環,CrowdStrike 發布了 Windows 感測器的內容設定更新,以收集有關潛在新型威脅技術的遙測資料。

這些更新是 Falcon 平台動態保護機制的常規內容。出現問題的快速回應設定更新導致 Windows 系統當機。

所涉系統包括運行 7.11 及更高版本感測器的 Windows 主機,這些系統在世界標準時間 2024 年 7 月 19 日星期五 04:09 至 2024 年 7 月 19 日星期五 05:27 連線並收到更新。Mac 和 Linux 主機未受影響。

內容更新缺陷已於世界標準時間 2024 年 7 月 19 日星期五 05:27 修復。在此時間之後上線的系統或在此時間窗口期間未連線的系統未受影響。

問題及原因

CrowdStrike 透過兩種方式為感測器提供安全內容設定更新:直接隨感測器出貨的感測器內容,以及旨在以運行速度因應千變萬化之威脅情勢的快速回應內容。

週五出現的問題涉及快速回應內容更新,其中存在未偵測到的錯誤。

感測器內容

感測器內容提供多種功能,以利協助應對攻擊者。它始終屬於感測器發布版本的一部分,且不會從雲端動態更新。感測器內容包括感測器上的 AI 和機器學習模型,並包含專門編寫的程式碼,專為 CrowdStrike 的威脅偵測工程師提供可重複使用的長期功能。

這些功能包括範本類型。範本類型具有供威脅偵測工程師在快速回應內容中利用的預定義欄位。範本類型以程式碼表示。所有感測器內容 (包括範本類型) 都會經過各類 QA 流程核驗,其中包括自動測試、人工測試、驗證和推出步驟。

感測器發布流程始於合併到程式碼庫之前和之後的自動測試。這包括單元測試、整合測試、效能測試和壓力測試。最終由此形成感測器的分階段推出流程,首先是 CrowdStrike 內部使用測試,隨後是早期採用者。然後將向廣大客戶正式推出。其後,客戶可以選擇透過感測器更新策略,選擇其設備的哪些部分應安裝最新版感測器 (「N」)、一個舊版本 (「N-1」) 或兩個舊版本(「N-2」)。

2024 年 7 月 19 日週五的事件並非由感測器內容觸發。該內容僅隨Falcon 感測器更新發布提供。客戶可以完全掌控感測器部署,其中包括感測器內容和範本類型。

快速回應內容

快速回應內容用於使用高度最佳化引擎,在感測器上執行各種行為模式匹配作業。快速回應內容體現欄位和值,具有相關的篩選功能。此快速回應內容儲存於包含設定資料的專有二進位檔案中,並非程式碼或核心模式驅動程式。

快速回應內容以「範本執行個體」方式傳送,即特定範本類型的實體化。各個範本實例均對應到特定行為,供感測器觀察、偵測或預防。範本實例含有一組欄位,可設定匹配預期的行為。

換言之,範本執行個體代表一種可實現全新遙測和偵測的感測器功能,其運行時行為由範本執行個體 (即快速回應內容) 動態設定。

快速回應內容可在感測器上提供可見性和偵測功能,而無須變更感測器程式碼。威脅偵測工程師使用此功能來收集遙測資料、識別攻擊者行為指標並執行偵測和預防。快速回應內容是一種行為啟發技術,與 CrowdStrike 的感測器 AI 預防和偵測功能分開且截然不同。

快速回應內容測試與部署

快速回應內容作為內容設定更新傳遞到 Falcon 感測器。共有三大主要系統:內容設定系統、內容解譯器和感測器偵測引擎。

內容設定系統是 Falcon 雲端平台的一部分,而內容解譯器和感測器偵測引擎則是 Falcon 感測器元件。內容設定系統用於建立範本執行個體。這些范本執行個體透過稱為通道檔案的機制進行驗證並部署至感測器。感測器透過通道檔案儲存並更新其內容設定資料,這些資料寫入主機上的磁碟。

感測器上的內容解譯器讀取通道檔案並解譯快速回應內容,以便感測器偵測引擎依據客戶的策略設定來觀察、偵測或防止惡意活動。內容解譯器旨在妥善處理有潛在問題的內容所造成的異常狀況。

新發布的範本類型在資源利用率、系統效能影響和事件量等多個面向經歷了壓力測試。對於每個範本類型,特定的範本執行個體用於透過匹配關聯資料欄位的任何可能值,來對範本類型進行壓力測試,以識別不利的系統互動。

範本執行個體透過使用內容設定系統來建立和設定,其中包括內容驗證器,可在內容發布之前對內容執行驗證檢查作業。

事件時間表:InterProcessCommunication (IPC) 範本類型的測試和推出

感測器內容發布:2024 年 2 月 28 日,7.11 版感測器向客戶發布,推介新 IPC 範本類型來偵測濫用具名管道的新型攻擊技術。此版本遵循上述感測器內容部分所述的所有感測器內容測試程序。

範本類型壓力測試:2024 年 3 月 5 日,在司內暫存環境中執行了 IPC 範本類型的壓力測試,該環境包含各種作業系統和工作負載。IPC 範本類型通過了壓力測試並經驗證可供使用。

透過通道檔案291發布範本執行個體:2024 年 3 月 5 日,壓力測試成功後,IPC 範本執行個體作為內容設定更新的一部分發布至生產環境。隨後,在 2024 年 4 月 8 日至 2024 年 4 月 24 日期間部署了另外三個 IPC 範本執行個體。這些範本執行個體在生產環境中依預期執行。

2024 年 7 月 19 日事件

2024 年 7 月 19 日,部署了另外兩個 IPC 範本執行個體。由於內容驗證器中的錯誤,其中一個包含有問題內容資料的範本執行個體通過了驗證。

根據範本類型初始部署 (2024 年 3 月 5 日) 之前執行的測試、對內容驗證器中所執行檢查的信任以及先前成功的 IPC 範本執行個體部署,這些執行個體已部署至生產環境中。

在被感測器接收並載入內容解譯器中時,通道檔案 291 中有問題的內容導致記憶體讀取越界,進而觸發異常。由於未妥善處理此意外異常,導致 Windows 作業系統當機 (BSOD)。

如何避免此類狀況再次發生?

軟體韌性與測試

•   使用以下測試類型,改善快速回應內容測試:

本機開發人員測試
內容更新與回溯測試
壓力測試、模糊測試與故障注入
穩定性測試
內容介面測試

•   為快速回應內容的內容驗證器新增額外驗證檢查。正在進行一項新檢查措施,以免未來部署此類有問題的內容。

•   增強內容解譯器中現有的錯誤處理功能。

快速回應內容部署

•   為快速回應內容實施分階段部署策略,先從金絲雀部署 (canary deployment) 開始,然後將更新逐漸部署到感測器基礎的較大部分。

•   改善對感測器和系統效能的監控,在快速回應內容部署期間收集意見回饋,為分階段部署提供指導。

•   允許對部署此類更新的時間和位置進行細化選擇,進而為客戶提供對快速回應內容更新交付的更大掌控度。

•   透過版本說明提供內容更新詳細資訊,可供客戶訂閱。

第三方驗證

•   進行多重獨立第三方安全程式代碼審查。
•   從開發到部署,進行端對端品質流程獨立審查。

除初步事後審查之外,CrowdStrike 也致力於在調查完成後公布完整的根本原因分析。