Das Crowdstrike-Fiasko: Ursachen, Lehren und Praxistipps für Admins

Berlin – Nach dem vermutlich größten IT-Ausfall der Geschichte wird nun analysiert, was genau schiefgelaufen ist und wie solche Vorfälle in Zukunft vermieden werden können. Jürgen Schmidt hat die wichtigsten Erkenntnisse und Handlungsempfehlungen zusammengefasst.

Ein fehlerhaftes Update der Crowdstrike-Software Falcon Sensor führte dazu, dass weltweit rund 8,5 Millionen Windows-PCs abstürzten – viele davon in produktiven Firmenumgebungen. Die betroffenen Rechner blieben in einer Endlosschleife stecken und ließen sich nicht mehr neu starten. Dieses Ereignis gilt vielen bereits als der größte IT-Ausfall aller Zeiten.

Die Ursachen des Desasters

Für das Verständnis ist es wichtig zu wissen, dass es sich nicht um ein klassisches Software-Update handelte. Vielmehr lieferte Crowdstrike ein neues Erkennungsmuster aus, um auf aktuelle Bedrohungen zu reagieren. Dieses Update sollte bestimmte Tricks mit Named Pipes aufdecken und blockieren. Vermutlich war ein neues Feature im Angriffs-Framework Cobalt Strike der Auslöser, das kurz vor dem fatalen Crowdstrike-Update neue Funktionen auf Basis von Named Pipes vorgestellt hatte.

Crowdstrike bietet zwar die Möglichkeit, die Software auf einen älteren Stand zurückzusetzen, doch betrifft das nur die eigentliche Software. Die in sogenannten Channel-Files ausgelieferten Signaturen werden immer in der jeweils aktuellen Version installiert. Diese Signatur-Updates erscheinen täglich, manchmal sogar stündlich, und werden ohne weitere Kontrollen direkt aktiviert. Hier sind Anwender weitgehend der Sorgfalt der Hersteller ausgeliefert.

Windows als „offenes“ System

Antiviren- und EDR-Software greifen tief ins System ein, um bösartige Aktivitäten zu erkennen und zu unterbinden. Fast jede EDR-Lösung installiert dazu unter Windows Treiber mit Kernel-Rechten. Wenn ein solcher Kernel-Treiber abstürzt, steht das gesamte System still. Ein prominenter Kritiker, Dave Plummer, der Autor des Windows-Taskmanagers, hat in einem Video auf X hervorragend erklärt, warum das so problematisch ist.

Maßnahmen zur Verbesserung der Resilienz

Microsoft könnte Windows so gestalten, dass es bei wiederholtem Absturz an derselben Stelle den Anwender automatisch anbietet, ohne den problematischen Treiber zu booten. Dies wäre kein Hexenwerk, sondern solides Software-Engineering. Microsoft könnte auch bessere Schnittstellen anbieten, um das Problem fehlerhafter Treiber zu entschärfen. Ein gutes Beispiel ist die eBPF-Schnittstelle bei Linux, die tiefen Einblick ermöglicht, ohne eigene Kernel-Treiber zu benötigen.

Rust FTW?

Es gibt Rufe nach einem Umstieg auf sichere Programmiersprachen wie Rust, die Speicherverwaltungsfehler weitgehend verhindern. Dies ist sicherlich ein wichtiger Schritt, deckt jedoch nur einen Teil des Problems ab. Die Programmiersprache, in der man keine Fehler machen kann, die zum Absturz führen, gibt es nicht. Bessere Qualitätssicherung bleibt der Schlüssel zu mehr Resilienz.

Praktische Tipps für Admins

Hier sind zwei wesentliche Lehren, die sich jeder Administrator zu Herzen nehmen sollte:

1. Bitlocker-Wiederherstellungsschlüssel verwalten: Viele Fälle, in denen die Wiederaufnahme des Betriebs lange dauerte, hatten mit Bitlocker zu tun. Das Löschen der problematischen Dateien im Windows-Ordner erforderte den Zugriff auf verschlüsselte Laufwerke. Wer bei der Schlüsselverwaltung geschlampt hat, zahlte dafür einen hohen Preis. Überprüfen Sie, wo und wie Sie Ihre Bitlocker-Wiederherstellungsschlüssel lagern und wie der Zugriff in Notfallszenarien erfolgen soll.

2. Notfallplanung: Viele Probleme traten auf, weil niemand im Unternehmen vorher darüber nachgedacht hatte, wie man auf großflächige IT-Ausfälle reagiert. Planen Sie im Voraus für verschiedene Notfallszenarien, welche Möglichkeiten zur Reaktion Sie haben und was Sie dafür benötigen. Üben Sie diese Szenarien, um Schwachstellen in Ihren Konzepten zu erkennen.

Fazit

Das Crowdstrike-Fiasko hat deutlich gemacht, wie verwundbar selbst große IT-Infrastrukturen sein können. Sowohl Hersteller wie Crowdstrike und Microsoft als auch Admins in Unternehmen können aus diesem Vorfall wertvolle Lehren ziehen. Mit den richtigen Maßnahmen und einer guten Vorbereitung lassen sich ähnliche Katastrophen in Zukunft vermeiden.

Hinterlasse einen Kommentar