Microsoft hat einige Details zu den Ursachen des jüngsten Cloud-Ausfalls bekannt gegeben, von dem Kunden betroffen waren, die seine Dienste nutzen.
Laut Microsoft war ein Router-Update die Ursache für den mehrstündigen Ausfall des Microsoft Wide Area Network (WAN), durch den Azure, Microsoft 365 und Power Platform für Kunden weltweit nicht erreichbar waren.
Der mehrstündige Ausfall am vergangenen Mittwoch betraf Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, Microsoft Graph, PowerBi, M365 Admin Portal, Microsoft Intune, Microsoft Defender for Cloud Apps und Microsoft Defender for Identity.
Kunden wurden gewarnt
Vor dem Ausfall hatte Microsoft seine Kunden gewarnt, dass ein geplantes Update am Mittwoch um 07:05 UTC zu Verzögerungen oder Timeouts führen könnte, wenn Kunden versuchen, sich mit Azure-Ressourcen in öffentlichen Azure-Regionen, Microsoft 365 und Power BI zu verbinden. Zu Beginn des Tages verursachte das Update nicht nur Wartezeiten, sondern beeinträchtigte auch Netzwerkgeräte im gesamten Microsoft-WAN, wodurch Verbindungen zwischen Diensten in Rechenzentren sowie Verbindungen über ExpressRoute, Microsofts privatem Netzwerk für Kunden zur Datenübertragung zwischen Rechenzentren, unterbrochen wurden.
Laut Microsofts vorläufigem Bericht nach dem Vorfall waren die meisten Regionen und Dienste um 09:00 UTC am Mittwoch wieder verfügbar, aber erst um 12:43 UTC am 25. Januar waren sie vollständig wiederhergestellt. Der Ausfall betraf laut Microsoft auch die Dienste der Azure Government Cloud, die von der Azure Public Cloud abhängen.
“Wir haben festgestellt, dass eine Änderung am Microsoft Wide Area Network (WAN) die Konnektivität zwischen Kunden im Internet und Azure, die Konnektivität zwischen Regionen und die Konnektivität zwischen Standorten über ExpressRoute beeinträchtigt hat”, heißt es in dem Microsoft-Bericht, der zuerst von Bleeping Computer entdeckt wurde.
WAN-Router überfordert
“Als Teil einer geplanten Änderung zur Aktualisierung der IP-Adresse auf einem WAN-Router führte ein Befehl an den Router dazu, dass dieser Nachrichten an alle anderen Router im WAN verschickte, was dazu führte, dass alle Router ihre Adjazenz- und Routing-Tabellen neu berechneten. Während dieser Neuberechnung waren die Router nicht in der Lage, die sie passierenden Pakete korrekt weiterzuleiten. Der Befehl, der das Problem verursachte, verhält sich auf verschiedenen Netzwerkgeräten unterschiedlich und wurde auf dem Router, auf dem er ausgeführt wurde, nicht durch unseren vollständigen Qualifizierungsprozess getestet.
Die Überwachungssysteme von Microsoft stellten um 07:12 UTC Probleme mit dem Domain Name Service (DNS) und dem WAN fest. Nach Überprüfung der letzten Änderungen entdeckten die Techniker den “problematischen Befehl”, der für die Probleme verantwortlich war, während der automatischen Wiederherstellung um 08:20 UTC.
“Aufgrund der Auswirkungen auf das WAN wurden unsere automatisierten Systeme zur Aufrechterhaltung des WAN-Status heruntergefahren, einschließlich der Systeme zur Identifizierung und Entfernung fehlerhafter Geräte und des Traffic-Engineering-Systems zur Optimierung des Datenflusses im Netzwerk”, so Microsoft.
“Aufgrund der Unterbrechung dieser Systeme kam es ab 09:35 UTC zu einem erhöhten Paketverlust auf einigen Pfaden im Netzwerk, bis diese Systeme manuell neu gestartet wurden und das WAN wieder optimale Betriebsbedingungen aufwies. Diese Wiederherstellung war um 12:43 UTC abgeschlossen”.
Fazit
Microsoft sagt, dass es nun “die Ausführung von Befehlen mit hoher Auswirkung auf die Geräte blockiert” hat, um zukünftige Vorfälle zu vermeiden. Außerdem müssen nun alle Befehlsausführungen auf Netzwerkgeräten den Richtlinien für sichere Änderungen folgen.
Microsoft plant, innerhalb der nächsten zwei Wochen einen abschließenden Bericht über den Vorfall zu veröffentlichen.