Wie ein Tippfehler weite Teile des Internets lahmlegte

Früher waren Offline-Phasen lästig; heute können sie gefährlich werden. In der Haut eines gewissen Amazon-Programmierers möchte man jedenfalls seit Dienstag nicht stecken.

von Gregor Thomanek

3.3.17

Bild: youngthousands, Flickr

Da half auch kein Neustart mehr: Als weite Teile des Internets am vergangenen Dienstag nicht erreichbar waren, herrschte allgemeine Ratlosigkeit. Weder bekannten sich Hacker zu einem Coup, noch war ein schwerwiegender Hardware-Defekt für den Ausfall vieler populärer Online-Dienste wie Slack, Trello und Giphy verantwortlich. Der Grund für die rund vierstündige Offline-Phase war ungleich banaler: ein simpler Tippfehler.

Zu diesem kam es im Norden Virginias, genauer: in den Büros von Amazon Web Service (AWS). Der Cloud-Computing-Anbieter stellt skalierbare IT-Infrastruktur über das Internet zur Verfügung. Zahlreiche namhafte Firmen nutzen diese oder ähnliche Sammlungen verschiedener Online-Dienste, zu den Kunden zählen auch Netflix, Reddit oder Dropbox. Der Vorteil für sie liegt auf der Hand: Statt Unsummen in ein komplexes IT-Netz zu investieren, werden Server bequem an Dritte ausgelagert und flexibel verwaltet. So können etwa kurzfristig zusätzliche Speicher genutzt werden, sollte ein unerwarteter Engpass entstehen. Spätestens mit dem aktuellen Ausfall der Cloud-Dienste wurde jedoch auch die immanente Gefahr dieser Abhängigkeit deutlich.

Die Folgen des simplen Tippfehlers waren enorm: Laut Internet-Überwachungsdienst Apica litten 54 der 100 größten Online-Shops unter starken Beeinträchtigungen. Der entstandene Schaden wird auf rund 150 Millionen US-Dollar geschätzt.

Amazon selbst hat inzwischen eine Stellungnahme zu den jüngsten Unterbrechungen veröffentlicht. Darin skizziert das Unternehmen auch, wie es überhaupt zum Blackout kommen konnte. So hätten am Montagmorgen im Rahmen einer kleineren Fehlerbehebung Debugging-Arbeiten stattgefunden, in deren Zusammenhang einige Server planmäßig vom Netz genommen werden sollten – das übliche Vorgehen in Fällen wie diesen. Der zuständige Programmierer habe allerdings einen falschen Wert eingetragen und damit deutlich mehr Server deaktiviert als geplant. Ein aufwendiger Neustart folgte, der jedoch mehrere Stunden in Anspruch nahm – Zeit, in der Programme und Services nicht erreichbar waren, die auf den Cloud-Speicherdienst zurückgreifen. Auch VICE war betroffen: Während des Zwischenfalls war es uns nicht möglich, Bilder auf unsere Seite hochzuladen.

Man habe bereits Schritte eingeleitet, um ein solches Szenario künftig zu vermeiden, versucht Amazon zu beruhigen. Daraus sollten wir aber keine falschen Schlüsse ziehen, warnt unser britischer Kollege Ben Sullivan: Ausfälle wie diese werde es immer geben – und wir alle sollten uns daran gewöhnen.

Aus gutem Grund sichern Anbieter wie Amazon Web Service oder dessen größter Konkurrent Microsoft Azure ihren Kunden keine absolute Verfügbarkeit zu. Sie verpflichten sich vertraglich zu einer Erreichbarkeit ihrer Cloud-Dienste in 99,999 Prozent der Zeit, das entspricht einer jährlichen Downtime von 5,26 Minuten. Dieses Schlupfloch hat Methode: Obwohl Back-up-Lösungen und andere Sicherheitsvorkehrungen verhindern sollen, dass es zu Ausfällen wie dem jüngsten kommt, sind diese doch nie völlig auszuschließen.

Ganz im Gegenteil: Amazon, Microsoft und Google haben ein großes wirtschaftliches Interesse daran, so viele Kunden wie möglich zu akquirieren. Je abhängiger sich Online-Dienste aber von einem einzigen Anbieter machen, desto anfälliger sind sie für Ausfälle. Bereits heute ziehen Online-Blackouts verheerende Folgen nach sich. Keine allzu rosige Ausgangslage für das ohnehin anfällige Internet der Dinge.

Tagged:cloud computingAmazon Web ServicesMicrosoft AzureTippfehlerAWSTechMotherboard

FYI.

This story is over 5 years old.

Wie ein Tippfehler weite Teile des Internets lahmlegte

Lass dir das Beste von VICE jede Woche per Mail schicken!